Fernando Elkfury, Jorge Ierache
Inferir emociones a partir de la voz de las personas implica muchos problemas que necesitan ser estudiados cuidadosamente, tales como: qué emociones podemos identificar realmente, definir concretamente qué se entiende por cada emoción descripta, cuáles son las mejores características para la identificación y qué clasificadores dan el mejor rendimiento. En este trabajo se comparan dos modelos de redes neuronales para la clasificación de emociones en el discurso hablado (voz) y se propone un método para la transformación de enfoque categórico de clasificación de emociones a uno dimensional para la integración del clasificador con frameworks multimodales de captura de emociones.
Inferring emotions from people's voices involves many problems that need to be studied, such as: what emotions can we really define, specifically define what is meant by each described emotion, what are the best features to extract, and which classifiers perform the best. In this work we compare two neural networks models for the classification of emotions in spoken speech (voice) and a method is proposed for the transformation of the categorical approach of emotion classification to a dimensional one for the integration of the develop classifier with an emotional inference multimodal framework.