[1]
;
Contreras Arvizu, Juan Antonio
[1]
;
Durán Ortega, Adalberto Joel
[1]
Se emplean las técnicas de balanceo de datos DownSampling y UpSampling aplicadas a un conjunto relacionados con individuos propensos a tener un accidente cerebrovascular. El propósito de este trabajo es demostrar la importancia que tiene la aplicación de las técnicas de DownSamplig y UpSampling cuando nos encontramos con datos que presentan desbalance; haciendo una comparación entre las dos técnicas mencionadas y analizando el comportamiento de las medidas que se calculan en la matriz de confusión cuando se crea el modelo de predicción. El conjunto de datos está compuesto por 4981 registros, de ellos 4773 pertenecen a la clase de los que no han sufrido un accidente cerebrovascular y 248 a la clase que sí lo han tenido. Se encontró que para este conjunto de datos la mejor técnica para tratar el desbalance es la de UpSampling con la mayor de sus réplicas y en el momento en que se va a evaluar el modelo es importante, no solo basarse en su Exactitud, sino también en otras medidas que resultan de la matriz de confusión, esto para lograr un mejor análisis de los resultados que se obtienen.
The DownSampling and UpSampling data balancing techniques are used applied to a set related to individuals prone to having a stroke. The purpose of this work is to demonstrate the importance of the application of DownSampling and UpSampling techniques when we find data that present imbalance; making a comparison between the two mentioned techniques and analyzing the behavior of the measures that are calculated in the confusion matrix when the prediction model is created. The data set is composed of 4981 records, of which 4773 belong to the class of those who have not suffered a stroke and 248 to the class that has had one. It was found that for this data set the best technique to treat the imbalance is UpSampling with the largest of its replicas and when the model is going to be evaluated it is important not only to base it on its Accuracy, but also on other measures that result from the confusion matrix, this to achieve a better analysis of the results obtained.