Mejora de la estimación del esfuerzo en proyectos de software mediante métodos de sobremuestreo y aprendizaje computacional

Beatriz Bedolla Martínez; Raúl Cruz Barbosa; Iván Antonio García Pacheco

Mejora de la estimación del esfuerzo en proyectos de software mediante métodos de sobremuestreo y aprendizaje computacional

Bedolla Martínez, Beatriz ^[1] ; Cruz-Barbosa, Raúl ^[1] ; García Pacheco, Iván Antonio ^[1]
1. [1] Universidad Tecnológica de la Mixteca
  
  Universidad Tecnológica de la Mixteca
  
  México
Localización: Revista de Investigación en Tecnologías de la Información: RITI, ISSN-e 2387-0893, Vol. 13, Nº. Extra 31, 2025, págs. 80-93
Idioma: español
DOI: 10.36825/RITI.13.31.008
Títulos paralelos:
- Improving effort estimation in software projects using oversampling and machine learning methods
Enlaces
- Texto completo (pdf)
Resumen
- español
  La predicción de la estimación del esfuerzo determina el tiempo que tomará desarrollar un software o los recursos que se requerirán para terminarlo en el tiempo establecido. Una alternativa actual para predecir las estimaciones es utilizar métodos de aprendizaje computacional, sin embargo, los conjuntos de datos disponibles públicamente generalmente contienen pocas muestras, por lo cual dichos métodos no pueden mejorar su efectividad. Entonces, es necesario aumentar el número de muestras mediante métodos de sobremuestreo. Por lo anterior, en este artículo se utilizan principalmente métodos de ensamble con combinaciones de sobremuestreo y submuestreo para analizar el efecto en el rendimiento de los regresores utilizados sobre conjuntos pequeños y medianos, evaluando así su efectividad en la mejora de la estimación del esfuerzo en proyectos de software, mediante el uso de medidas como MMRE, MAE, RMSE y Pred. Los resultados obtenidos de MMRE y Pred, principalmente, muestran que la aplicación de estas estrategias permite reducir los errores de predicción. Por tanto, la utilización de un modelo de ensamble adecuado, junto con las estrategias de sobremuestreo y submuestreo, permite mejorar la predicción del esfuerzo, especialmente en conjuntos de datos pequeños como COCOMO, Maxwell y Desharnais con alto desbalanceo en la distribución de sus muestras.
- English
  Effort estimation prediction determines the time it will take to develop a software program or the resources required to complete it within the established timeframe. A current alternative for predicting estimates is to use machine learning methods. However, publicly available data sets generally contain few samples, so such methods cannot improve their effectiveness. Thus, it is necessary to increase the number of samples using oversampling methods. Therefore, this paper presents the use of ensemble methods with combinations of oversampling and undersampling to analyze the performance impact of the regressors used on small and medium-sized data sets. Moreover, their effectiveness in improving effort estimation in software projects using measures such as MMRE, MAE, RMSE, and Pred is also presented. The results obtained from MMRE and Pred, mainly show that the application of these strategies reduces prediction errors. Consequently, the use of an appropriate ensemble model, together with oversampling and undersampling strategies, improves effort prediction, especially on small data sets such as COCOMO, Maxwell, and Desharnais with highly unbalanced sample distributions.
Referencias bibliográficas
- Durgesh, D. V. S., Saket, M. V. S., Reddy, B. R. (2023). Improving software effort estimation with heterogeneous stacked ensemble using SMOTER...
- Sunda, N., Sinha, R. R. (2023). Optimizing effort estimation in agile software development: Traditional vs. advanced ML methods. IEEE International...
- Belhaouari, S. B., Islam, A., Kassoul, K., Al-Fuqaha, A., Bouzerdoum, A. (2024). Oversampling techniques for imbalanced data in regression....
- Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of Artificial...
- Avelino, J. G., Cavalcanti, G. D. C., Cruz, R. M. O. (2024). Resampling strategies for imbalanced regression: A survey and empirical analysis....
- Moniz, N., Ribeiro, R., Cerqueira, V., & Chawla, N. (2018). SMOTEBoost for regression: Improving the prediction of extreme values. IEEE...
- Torgo, L., Ribeiro, R. P., Pfahringer, B., Branco, P. (2013). SMOTE for regression. En L. Correia, L. P. Reis, J. Cascalho (Eds.), Progress...
- Jawa, M., Meena, S. (2022). Software effort estimation using synthetic minority over-sampling technique for regression (SMOTER). IEEE 3rd...
- Yun, F. H. (2025). China: Effort estimation dataset. Zenodo. https://zenodo.org/records/268446
- Li, Y. (2025). Effort estimation: Maxwell. Zenodo. https://zenodo.org/records/268461
- Kaggle. (2025). Effort-estimation-on-cocomo-dataset. https://kaggle.com/code/vanlocbk1996/effort-estimation-on-cocomo-dataset
- Esteves, A. (2025). Software effort estimation. https://github.com/yy2111/Software-Effort-Estimation/blob/master/Datasets/02.desharnais.csv
- Bhattacharyya, A., Srijith, K., Behera, R. P., Dasgupta, A., Chakraborty, R. S. (2024). A study on effects of synthetic data for predicting...
- Qi, L., Zhihao, L., & Jianxiao, Z. I. (2024). A SMOGN-based MPSO-BP model to predict the height of a hydraulically conductive fracture...
- Rad, M., Rafiei, A., Grunwell, J., Kamaleswaran, R. (2025). Tackling the small imbalanced horizontal dataset regressions by stability selection...
- Branco, P., Torgo, L., Ribeiro, R. P. (2017). SMOGN: A pre-processing approach for imbalanced regression. First International Workshop on...
- Rahman, M., Sarwar, H., Kader, M. D. A., Gonçalves, T., Tin, T. T. (2024). Review and empirical analysis of machine learning-based software...
- Abid, M., Bukhari, S., Saqlain, M. (2025). Enhancing software effort estimation in healthcare informatics: A comparative analysis of machine...
- Mienye, I. D., Sun, Y. (2022). A survey of ensemble learning: Concepts, algorithms, applications, and prospects. IEEE Access, 10, 99129–99149....
- Varshini, A. G. P., Kumari, K. A., Janani, D., Soundariya, S. (2021). Comparative analysis of machine learning and deep learning algorithms...
- Şengüneş, B., Öztürk, N. (2023). An artificial neural network model for project effort estimation. Systems, 11 (2), 1-22. https://doi.org/10.3390/systems11020091
- Zakrani, A., Hain, M., Idri, A. (2019). Improving software development effort estimating using support vector regression and feature selection....
- Rahman, M., Roy, P. P., Ali, M., Goncalves, T., Sarwar, H. (2023). Software effort estimation using machine learning technique. International...

Mi Ágora

Selección

Opciones de artículo

Seleccionado

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Acceso de usuarios registrados

Mejora de la estimación del esfuerzo en proyectos de software mediante métodos de sobremuestreo y aprendizaje computacional

Universidad Tecnológica de la Mixteca

Mi Ágora

Opciones de artículo

Opciones de compartir

Opciones de entorno