Vigo, España
Propósito. El estudio investiga si la evaluación mediante inteligencia artificial (IA) con un modelo GPT personalizado puede ser comparable o complementaria a la evaluación humana en proyectos de diseño gráfico realizados por estudiantes de máster. Metodología. Se evaluaron 180 imagotipos durante seis años con una guía de evaluación de 10 ítems en escala Likert. Cada trabajo recibió una doble calificación, por expertos humanos y por la IA. Resultados y conclusiones. Los resultados muestran coincidencia en cinco categorías entre evaluadores humanos e IA (p. ej., originalidad, relevancia) mientras que en otras cinco (p. ej., equilibrio, principios del diseño) la IA tendió a sobrevalorar los trabajos en comparación con la evaluación humana. El análisis cualitativo de los comentarios de la IA identificó fortalezas, pero también limitaciones. En conclusión, una evaluación híbrida humano-IA podría mejorar la equidad y la eficiencia en la calificación de la creatividad, aunque la IA por sí sola no capta todos los matices subjetivos. Aportes originales. Este trabajo aporta evidencia empírica novedosa sobre la capacidad y las limitaciones de la IA (GPT) como evaluador de diseño gráfico en comparación con la reflexión humana. Propone un modelo de evaluación híbrida que integra la sensibilidad y el juicio experto del evaluador humano con la consistencia y rapidez de la IA, ofreciendo una vía innovadora para aumentar la objetividad sin perder los matices subjetivos en la evaluación creativa.
Purpose. This study investigates whether evaluation using artificial intelligence (AI) with a customized GPT model can be comparable to, or complementary to, human evaluation in graphic design projects created by master's degree students. Methodology. A total of 180 logos were evaluated over six years using a 10-item Likert scale rubric. Each project received a double assessment, one by human experts and one by AI. Results and Conclusions. The results show agreement in five categories between human evaluators and AI (e.g., originality, relevance) while, in another five categories (e.g., balance, design principles), AI tended to overvalue the works when compared to human assessment. The qualitative analysis of the AI’s feedback identified strengths, but also limitations. In conclusion, a hybrid human-AI evaluation could improve fairness and efficiency in creativity grading, although AI alone fails to capture all subjective nuances. Original Contributions. This paper provides novel empirical evidence on the capabilities and limitations of AI (GPT) as a graphic design evaluator when compared to human assessment. It proposes a hybrid evaluation model that combines the sensitivity and expert judgment of the human evaluator, with the consistency and speed of AI, providing an innovative way to increase objectivity without losing subjective nuances in creativity evaluation.