Colombia
El etiquetado de partes del discurso es una de las tareas más importantes en el preprocesamiento del lenguaje natural y tiene usos en el análisis de sentimientos, traducción de texto, reconocimiento de voz y recuperación de información, entre otros. Esta tarea se enfrenta a tres retos principales relacionados con la ambigüedad de las palabras, el tamaño del conjunto de etiquetas y el etiquetado de palabras desconocidas. Este artículo presenta la construcción de un dataset en castellano y la comparación de varios algoritmos metaheurísticos del estado del arte sobre el corpus en castellano, incluido un algoritmo memético mejorado que maneja diferentes contextos de las palabras, lo que le permite obtener un mejor desempeño.
The Part of Speech Tagging is one of the most important tasks in the natural language preprocessing and it has uses in sentiment analysis, text translation, voice recognition and information retrieval, among others. This task faces three main challenges related to the ambiguity of words, the size of the tagset and the labeling of unknown words. This article presents the construction of a dataset labeled in Spanish and the comparison of several state-of-theart metaheuristic algorithms over the Spanish corpus, including an improved memetic algorithm that handles different word contexts, which allows it to obtain a better performance.