Evolución de las correcciones automatizadas en ELE: Análisis de Claude Sonnet 3.7 y 4.0 como evaluadores

Antoni Brosa Rodríguez

Evolución de las correcciones automatizadas en ELE: Análisis de Claude Sonnet 3.7 y 4.0 como evaluadores

Brosa Rodríguez, Antoni ^[1]
1. [1] Universitat Rovira i Virgili
  
  Universitat Rovira i Virgili
  
  Tarragona, España
Localización: Tavira: Revista electrónica de formación de profesorado en comunicación lingüística y literaria, ISSN-e 2792-9035, ISSN 0214-137X, Nº. 30, 2025 (Ejemplar dedicado a: New technologies and artificial intelligence in language and literature teaching), pág. 1107
Idioma: español
DOI: 10.25267/Tavira.2025.i30.1107
Títulos paralelos:
- Evolução das correções automatizadas em ELE: Análise de Claude Sonnet 3.7 e 4.0 como avaliadores
- Evolution of automated feedback in SFL: Analysis of Claude Sonnet 3.7 and 4.0 as evaluators
Enlaces
- Texto completo
Resumen
- español
  Esta investigación analiza la evolución de las capacidades de retroalimentación entre la inteligencia artificial específica para diferentes modelos de lenguaje Claude Sonnet en sus versiones 3.7 y 4.0 como herramientas de corrección para textos de estudiantes de español como lengua extranjera. Mediante análisis comparativo cualitativo de 15 textos del corpus CEDEL2, el estudio evalúa diferentes ítems: precisión en detección de errores, claridad explicativa, adecuación pedagógica y problemas detectados. Claude 4.0 incrementa la detección de errores en 17% (189 vs 161) y desarrolla mayor sofisticación en adaptación por niveles, concentrándose en errores fundamentales para principiantes mientras proporciona análisis exhaustivos para estudiantes avanzados. La versión más reciente introduce mejoras en organización estructural mediante formato tripartito "error → corrección → explicación". Sin embargo, presenta retrocesos pedagógicos preocupantes: elimina actividades complementarias características de Claude 3.7, degrada la retroalimentación motivacional a comentarios genéricos en tercera persona, y mantiene sesgos hacia variedades peninsulares e hipercorrección. Más problemáticas resultan las interferencias interlingüísticas que generan propuestas en español e inglés, generando un spanglish inadecuado. El análisis confirma que ninguna versión puede funcionar autónomamente sin mediación docente, estableciendo su rol óptimo como herramientas complementarias con supervisión pedagógica activa. Los hallazgos evidencian que la evolución tecnológica en inteligencia artificial educativa no constituye mejora lineal, revelando intercambios complejos entre sofisticación técnica y adecuación pedagógica.
- English
  This research analyses the evolution of feedback capabilities between specific artificial intelligence for different Claude Sonnet language models in versions 3.7 and 4.0 as correction tools for texts written by students of Spanish as a foreign language. Through a qualitative comparative analysis of 15 texts from the CEDEL2 corpus, the study evaluates different items: accuracy in error detection, explanatory clarity, pedagogical appropriateness, and problems detected. Claude 4.0 increases error detection by 17% (189 vs 161) and develops greater sophistication in level adaptation, focusing on fundamental errors for beginners while providing comprehensive analysis for advanced students. The latest version introduces improvements in structural organisation through a tripartite format: ‘error → correction → explanation’. However, it presents worrying pedagogical setbacks: it eliminates complementary activities characteristic of Claude 3.7, degrades motivational feedback to generic third-person comments, and maintains biases towards peninsular varieties and hypercorrection. More problematic are the interlinguistic interferences generated by proposals in Spanish and English, resulting in inappropriate Spanglish. The analysis confirms that neither version can function autonomously without teacher mediation, establishing their optimal role as complementary tools with active pedagogical supervision. The findings show that technological evolution in educational AI does not constitute linear improvement, revealing complex exchanges between technical sophistication and pedagogical adequacy.
- português
  Esta investigação analisa a evolução das capacidades de retroalimentação entre a inteligência artificial específica para diferentes modelos de linguagem Claude Sonnet nas suas versões 3.7 e 4.0 como ferramentas de correção para textos de estudantes de espanhol como língua estrangeira. Por meio de uma análise comparativa qualitativa de 15 textos do corpus CEDEL2, o estudo avalia diferentes itens: precisão na deteção de erros, clareza explicativa, adequação pedagógica e problemas detetados. O Claude 4.0 aumenta a deteção de erros em 17% (189 vs 161) e desenvolve maior sofisticação na adaptação por níveis, concentrando-se em erros fundamentais para iniciantes, ao mesmo tempo que fornece análises exaustivas para estudantes avançados. A versão mais recente introduz melhorias na organização estrutural por meio do formato tripartido “erro → correção → explicação”. No entanto, apresenta retrocessos pedagógicos preocupantes: elimina atividades complementares características do Claude 3.7, degrada o feedback motivacional a comentários genéricos na terceira pessoa e mantém vieses em relação às variedades peninsulares e à hipercorreção. Mais problemáticas são as interferências interlinguísticas que geram propostas em espanhol e inglês, criando um spanglish inadequado. A análise confirma que nenhuma versão pode funcionar de forma autónoma sem a mediação do professor, estabelecendo o seu papel ideal como ferramentas complementares com supervisão pedagógica ativa. As conclusões evidenciam que a evolução tecnológica na IA educativa não constitui uma melhoria linear, revelando interações complexas entre sofisticação técnica e adequação pedagógica.
Referencias bibliográficas
- Arnold, J. (2000). La dimensión afectiva en el aprendizaje de idiomas. Colección Cambridge de didáctica de lenguas. Edinumen.
- Bailini, S. (2020a). El feedback como herramienta didáctica para el desarrollo de la autonomía en la adquisición de lenguas extranjeras. Philologia...
- Bailini, S. (2020b). El feedback interactivo y la adquisición del español como lengua extranjera. Mimesis.
- Benson, P. (2006). Autonomy in language teaching and learning. Language Teaching, 40, 21-40. https://doi.org/10.1017/S0261444806003958
- Buyse, K. (2014). Una hoja de ruta para integrar las TIC en el desarrollo de la expresión escrita: recursos y resultados. Journal of Spanish...
- Coterall, S. (2008). Aprendientes de lenguas y autoevaluación. marcoELE, 7. http://marcoele.com/descargas/7/cotterall.pdf
- Coyne, S., Sakaguchi, K., Galvan-Sosa, D., Zock, M. e Inui, K. (2023). Analyzing the performance of GPT-3.5 and GPT-4 in grammatical error...
- Crossley, S. A., Bradfield, F. y Bustamante, A. (2019). Using human judgments to examine the validity of automated grammar, syntax, and mechanical...
- Feng Teng, M. (2024). «ChatGPT is the companion, not enemies»: EFL learners' perceptions and experiences in using ChatGPT for feedback...
- Fernández, S. (2017). Evaluación y aprendizaje. MarcoELE: Revista de Didáctica Español Lengua Extranjera, 24, 1-43. http://marcoele.com/descargas/24/fernandez-evaluacion_aprendizaje.pdf
- Ferreira, A. y Kotz, G. (2010). ELE-Tutor Inteligente: Un analizador computacional para el tratamiento de errores gramaticales en Español...
- García, M. (2024). ChatGPT: posibles aplicaciones y recomendaciones de uso en ELE. In ELEUK ampliando horizontes: propuestas didácticas y...
- García Pujals, A. y Lasagabaster, D. (2019). El efecto de la evaluación y la retroalimentación en la autonomía, la motivación y el aprendizaje...
- Hattie, J. y Timperley, H. (2007). The Power of Feedback. Review of Educational Research, 77(1), 81-112.
- Kasneci, E., Seßler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F., Gasser, U., Groh, G., Günnemann, S., Hüllermeier, E., Krusche,...
- López Mata, D. (2023). ChatGPT en la clase de preparación al DELE. Propuesta didáctica e impresiones de los estudiantes de ELE. Revista Nebrija...
- Mizumoto, A., Shintani, N., Sasaki, M. y Feng Teng, M. (2024). Testing the viability of ChatGPT as a companion in L2 writing accuracy assessment....
- Ranalli, J. (2021) L2 student engagement with automated feedback on writing: Potential for learning and issues of trust. Journal of Second...
- Ranalli, J., Link, S. y Chukharev-Hudilainen, E. (2017). Automated writing evaluation for formative assessment of second language writing:...
- Slamet, J. (2024). Potential of ChatGPT as a digital language learning assistant: EFL teachers' and students' perceptions. Discoveries...
- Xiao, Y. y Zhi, Y. (2023). An Exploratory Study of EFL Learners' Use of ChatGPT for Language Learning Tasks: Experience and Perceptions....

Mi Ágora

Selección

Opciones de artículo

Seleccionado

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Acceso de usuarios registrados

Evolución de las correcciones automatizadas en ELE: Análisis de Claude Sonnet 3.7 y 4.0 como evaluadores

Universitat Rovira i Virgili

Mi Ágora

Opciones de artículo

Opciones de compartir

Opciones de entorno