El presente trabajo tuvo como finalidad determinar el efecto del tamaño del alfabeto de un mensaje, en el rendimiento del algoritmo de compresión probabilístico basado en la posición de los símbolos, el cual propusimos en un trabajo previo (Rincón, Acurero, Bracho y Jakymec, 2008). La metodología utilizada consistió en 7 etapas: (a) determinación de las variables dependientes e independientes a objeto de estudio, (b) desarrollo e implementación del algoritmo propuesto, (c) construcción de los archivos de prueba, (d) ejecución del algoritmo implementado sobre los archivos de prueba, (e) determinación del modelo matemático que explique el comportamiento de las variables dependientes, (f) aplicación del método estadístico análisis de varianza, (g) análisis de los resultados obtenidos. Las variables dependientes seleccionadas fueron el tiempo de compresión y la relación de compresión.
El diseño del modelo estadístico seleccionado fue un totalmente aleatorizado con tratamiento en un arreglo factorial 4x2, con dos factores: tamaño del alfabeto (4,8,12 y 16 símbolos) y distribucción probabilística del alfabeto (aleatorio y equiprobable). Del análisis de varianza se obtuvo diferencias significativas para todas las variables independientes y su interacción en todas las variables dependientes, corroborando así el efecto que tiene el tamaño del alfabeto en el rendimiento del algoritmo de compresión estudiado. La prueba de Tukey determinó que para la variable tiempo de compresión el mejor rendimiento se obtiene con la distribución aleatoria y el mayor tamaño del alfabeto (12 y 16), mientras que para la variable relación de compresión, el mejor rendimiento se obtiene con la distribución aleatoria y el menor tamaño del alfabeto.
The purpose of the present work was to determine the effect of alphabet size on the performance of a probabilistic compression algorithm based on symbol�s position proposed by Rincón, Acurero, Bracho y Jakymec, 2008. The methodology used consisted of 7 stages: (a) determination of the independent and dependent variables under study, (b) implementation of the proposed algorithm, (c) test files construction, (d) execution of the implemented algorithm on test files, (e) determination of the mathematical model that explains the behavior of the dependent variables, (f) application of the anova procedure, (g) results analysis. The dependent variables used to measure the algorithm performance were compression time and compression ratio. The statistical model designed was a totally randomized with treatment on a factorial array 4x2, with 2 factors: alphabet size (4,8,12 and 16 symbols) and alphabet probabilistic distribution (random and equiprobable). The Results of the anova procedure showed significative differences for all independent variables and their interactions on all dependent variables, corroborating the effect of the alphabet size on the performance of a probabilistic compression algorithm based on symbols position. Tukey�s media test determines that for compression time, the best performance was obtained with random distribution and the higher alphabet size (12 and 16), while for compression ratio the best performance was obtained with random distribution and the lowest alphabet size (4).