Luis Cedeño Valarezo, Jessica Johanna Morales Carrillo, Carlos Pierre Quijije Vera, Sandro Antonio Palau Delgado, Christian Israel López Mora
El objetivo de esta investigación fue determinar los modelos de machine learnig más eficientes para predecir la deserción estudiantil en el contexto del covid-19 en la ESPAM MFL. Primero se realizó un análisis exploratorio de datos para revisar anomalías del dataset, posteriormente se ejecutó una limpieza de datos. En principio el dataset tenía 3029 registros con un claro desbalance de clases con pocos ejemplos de la clase “retirado”. Para equilibrarlo se aplicaron técnicas de balanceo de clases para conservar la mayor cantidad de ejemplos de la clase objetivo y limitar instancias de la otra clase. El dataset final quedó con 900 registros, con el que se entrenaron varios modelos de machine learning que fueron evaluados con diferentes métricas de rendimiento como son: precision, recall, F1-score y accuracy. Como resultado se obtuvo que random forest y decision tree fueron los de mejor desempeño con accuracy de 99% y 98% respectivamente.
The objective of this research was to determine the most efficient machine learning models to predict student dropout in the context of covid-19 at ESPAM MFL. First, an exploratory data analysis was carried out to review dataset anomalies, then a data cleaning was carried out. Initially the dataset had 3029 records with a clear class imbalance with few examples of the “retired” class. To balance it, class balancing techniques were applied to keep as many examples of the target class as possible and limit instances of the other class. The final dataset was left with 900 records, with which several machine learning models were trained and evaluated with different performance metrics such as: precision, recall, F1-score and accuracy. As a result, it was obtained that random forest and decision tree were the ones with the best performance with accuracy of 99% and 98% respectively.