Colombia
Colombia
La deserción estudiantil constituye un desafío estructural en la educación superior colombiana, especialmente en contextos con sistemas curriculares y pedagógicos rígidos donde resulta complejo implementar estrategias preventivas oportunas. Este estudio desarrolla y valida un modelo híbrido de aprendizaje automático, fundamentado en la metodología CRISP-DM, que combina algoritmos supervisados (Random Forest, Ridge, XGBoost, KNN) y no supervisados (K-Means, DECLA), apoyados en técnicas de reducción y segmentación (PCA, ACM). A partir de variables sociodemográficas, indicadores de desempeño académico y un instrumento de seguimiento diseñado ad hoc, los modelos alcanzaron una alta precisión para anticipar el riesgo de abandono y segmentar a los estudiantes en perfiles de alta, media y baja probabilidad de deserción. Los algoritmos basados en árboles, en particular Random Forest, evidenciaron el mejor desempeño, identificando predictores críticos como cantidad de quejas, reversiones de calificaciones, estrato socioeconómico, género y estado civil. La principal contribución de este trabajo radica en trasladar la analítica predictiva de un ejercicio experimental hacia un sistema de apoyo institucional en programas de educación superior por competencias, donde la rigidez académica suele limitar la intervención temprana. Al anticipar la deserción mediante evidencia empírica en tiempo real, el modelo permite diseñar rutas diferenciadas de acción: tutorías personalizadas, apoyos socioeconómicos y f lexibilización curricular que complementan las reformas educativas de largo plazo. De esta manera, se justifica su relevancia en la educación superior como recurso innovador y fundamentado para fortalecer la permanencia estudiantil.
Student dropout is a structural challenge in Colombian higher education, particularly in contexts with rigid curricular and pedagogical systems where the implementation of timely preventive strategies is complex. This study develops and validates a hybrid machine learning model, based on the CRISP-DM methodology, that integrates supervised algorithms (Random Forest, Ridge, XGBoost, KNN) and unsupervised approaches (K-Means, DECLA), supported by dimensionality reduction and segmentation techniques (PCA, MCA). Using sociodemographic variables, academic performance indicators, and a specifically designed monitoring instrument, the models achieved high accuracy in anticipating dropout risk and segmenting students into profiles of high, medium, and low probability of withdrawal. Tree-based algorithms, particularly Random Forest, demonstrated the best performance, identifying critical predictors such as number of complaints, grade reversals, socioeconomic status, gender, and marital status. The main contribution of this work lies in moving predictive analytics from an experimental exercise to an institutional support system in competency-based higher education, where academic rigidity often limits early interventions. By anticipating dropout through real-time empirical evidence, the model enables the design of differentiated action pathways personalized tutoring, socioeconomic support, and curricular f lexibility that complement long-term educational reforms. In this way, its relevance in higher education is justified as an innovative and evidence-based resource to strengthen student retention.