Guatemala
Este estudio se enfoca en la clasificación de espectrogramas, representaciones visuales del audio para aplicar aprendizaje automático. Los métodos tradicionales, como los MFCCs con clasificadores clásicos, presentan limitaciones en lenguas con pocos recursos, como el zapoteco del Istmo. Modelos avanzados como RNNs y transformers requieren grandes volúmenes de datos, difíciles de obtener en contextos indígenas. Como alternativa, se propone una red neuronal convolucional profunda de 28 capas, entrenada con 10 frases comunes convertidas en espectrogramas y aumentadas artificialmente. El modelo logró un 100% de precisión en entrenamiento y 96.2% en validación. Aunque prometedor, se destaca la necesidad de ampliar el conjunto de datos. El trabajo evidencia el potencial del aprendizaje profundo para mejorar la comunicación intercultural y preservar lenguas indígenas en peligro.
This study focuses on the classification of spectrograms, visual representations of audio, for the application of machine learning. Traditional methods, such as MFCCs with classical classifiers, have limitations in resourcepoor languages such as Isthmus Zapotec. Advanced models, such as RNNs and transformers, require large volumes of data, which are often difficult to obtain in indigenous contexts. As an alternative, a 28-layer deep convolutional neural network is proposed, trained with 10 common phrases converted into spectrograms and artificially augmented. The model achieved 100% training accuracy and 96.2% validation accuracy. Although promising, the need to expand the dataset is highlighted. This work demonstrates the potential of deep learning to improve intercultural communication and preserve endangered indigenous languages.