Huelva, España
Dar crédito a las ideas que no son nuestras a través de las referencias bibliográficas son una parte esencial en la redacción de un trabajo científico y/o académico. Esta tarea es muy tediosa de realizar para el revisor, debido a que existe la necesidad de revisar la completitud de las referencias bibliográficas. Utilizando técnicas de Inteligencia Artificial esta tarea debe ser de forma automática. Además, se ha detectado que una cita incompleta dificulta o impide el acceso al trabajo referenciado. Este artículo expone dos modelos de predicción de clasificación binaria basados en Bidirectional Encoder Representation from Transformers (BERT) para el análisis y clasificación de referencias bibliográficas en el formato APA. Los dos modelos de predicción propuestos tienen asignado un único conjunto de datos de 16002 referencias bibliográficas. El primer modelo obtenido mediante la técnica de aumento de datos de generación manual alcanzó una puntuación de 0.99 en las métricas de exactitud, puntuación F1 y sensibilidad, mientras que en la métrica precisión obtuvo 0.98. Asimismo, en el modelo de predicción con la técnica de aumento de datos de generación automatizada se obtuvo la puntuación de 0.99 en exactitud, sensibilidad, puntuación F1 y precisión. Los resultados indican que los modelos propuestos están alcanzando un rendimiento mayor en comparación con los modelos de la literatura.
Giving credit to ideas that are not ours through bibliographic references is an essential part of writing a scientific and/or academic work. This task is very tedious for the reviewer to perform, because there is a need to review the completeness of the bibliographic references. Using Artificial Intelligence techniques, this task should be done automatically. In addition, it has been detected that an incomplete citation makes access to the referenced work difficult or impossible. This article presents two binary classification prediction models based on Bidirectional Encoder Representation from Transformers (BERT) for the analysis and classification of bibliographic references in the APA format. The two proposed prediction models are assigned a unique dataset of 16002 bibliographic references. The first model obtained through the manual generation data augmentation technique achieved a score of 0.99 in the accuracy, F1 score and recall metrics, while it obtained 0.98 in the precision metric. Likewise, in the prediction model with the automated generation data augmentation technique, the score of 0.99 was obtained in accuracy, recall, F1 score and precision. The results indicate that the proposed models are achieving higher performance compared to the literature models.