Anthony Edwin Aco Tito, Bryan Orlando Hancco Condori, Yasiel Pérez Vera
La deserción universitaria afecta negativamente a muchos estudiantes, este suceso puede estar relacionado con problemas personales, cuestiones económicas, entre otros. Ante tal situación surge la importancia de desarrollar una forma de predecir estos casos, para esto se propuso el uso de técnicas de Machine Learning, las utilizadas fueron Regresión Logística, Naive Bayes, Red Neuronal Perceptrón Multicapa, Árbol de Decisión, Support Vector Machine y Random Forest; se seleccionó un Dataset, que pasó por una limpieza de datos, se corrigieron los datos faltantes y los valores atípicos; luego se eliminaron los registros cuya variable de salida era Matriculado, centrándose en los tipos Abandono y Graduado. Cada modelo fue entrenado y probado mediante validación cruzada con pliegues, finalmente, se compararon en función de métricas de precisión, exactitud y exhaustividad, donde se concluyó que la Regresión Logística es la técnica que mejores resultados proporciona para predecir la deserción universitaria en el dataset considerado.
University dropout has a detrimental impact on numerous students; this phenomenon may be associated with personal issues, economic constraints, and other factors. Given this situation, the importance of developing a predictive model for such cases arises. To achieve this, Machine Learning techniques were proposed and employed, including Logistic Regression, Naive Bayes, Multilayer Perceptron Neural Network, Decision Tree, Support Vector Machine, and Random Forest. A dataset was selected and underwent data cleaning, addressing missing values and outliers. Subsequently, records with the 'Enrolled' outcome variable were removed, focusing solely on 'Dropout' and 'Graduate' categories. Each model was trained and tested using cross-validation with folds. Ultimately, they were compared based on accuracy, precision, and recall metrics, leading to the conclusion that Logistic Regression is the technique that yields the best results for predicting university dropout in the considered dataset.