David Carabantes Alarcón, José Luis González Geraldo, Gonzalo Jover Olmeda
La irrupción de la inteligencia artificial (IA) en todos los ámbitos de nuestra vida es una realidad a la que la universidad, como institución de educación superior, ha de responder con prudencia, pero también con decisión. El presente artículo discute el potencial que recursos basados en la IA presentan como potenciales evaluadores de artículos científicos en una hipotética revisión por pares de artículos ya publicados. A través de distintos modelos (GPT-3.5 y GPT-4) y plataformas (ChatPDF y Bing), obtuvimos tres revisiones completas, tanto cualitativas como cuantitativas, para cada uno de los cinco artículos examinados, pudiendo así delinear y contrastar los resultados de todas ellas en función de las revisiones humanas que estos mismos artículos recibieron en su momento. Las evidencias encontradas ponen de relieve hasta qué punto podemos y debemos confiar en los modelos de lenguaje generativos para sostener nuestras decisiones como expertos cualificados en nuestro campo. Asimismo, los resultados corroboran las alucinaciones propias de estos modelos al mismo tiempo que señalan uno de sus grandes defectos actuales: el límite de la ventana contextual. Por otro lado, el estudio también señala las bondades inherentes de un modelo que se encuentra en plena fase de expansión, proporcionando una visión detallada del potencial y las limitaciones que estos modelos ofrecen como posibles asistentes a la revisión de artículos científicos, proceso clave en la comunicación y difusión de la investigación académica.
The irruption of artificial intelligence (AI) in all areas of our lives is a reality to which the university, as an institution of higher education, must respond prudently, but also with no hesitation. This paper discusses the potential that resources based on AI presents as potential reviewers of scientific articles in a hypothetical peer review of already published articles. Using different models (GPT-3.5 and GPT-4) and platforms (ChatPDF and Bing), we obtained three full reviews, both qualitative and quantitative, for each of the five articles examined, thus being able to delineate and contrast the results of all of them in terms of the human reviews that these same articles received at the time. The evidence found highlights the extent to which we can and should rely on generative language models to support our decisions as qualified experts in our field. Furthermore, the results also corroborate the hallucinations inherent in these models while pointing out one of their current major shortcomings: the context window limit. On the other hand, the study also points out the inherent benefits of a model that is in a clear expansion phase, providing a detailed view of the potential and limitations that these models offer as possible assistants to the review of scientific articles, a key process in the communication and dissemination of academic research.