Sabrina S. Vasconcellos, Deborah Q. G. Foroni, Peterson A. Belan
Domestic and family violence (DFV) against women remains a persistent and underreported problem. With the rise of social media, spontaneous victim reports have become valuable data sources, although their volume and complexity require automated analytical techniques. This study aims to identify emerging topics in unstructured reports from women victims of DFV published on YouTube, using Natural Language Processing (NLP), unsupervised machine learning, and topic modeling. The methodology included data collection via the YouTube API, text preprocessing, embedding generation, dimensionality reduction (PCA and UMAP), clustering (K-means and HDBSCAN), and topic extraction using BERTopic. The best performance was achieved with the UMAP + HDBSCAN combination without stopwords, revealing themes such as the cycle of violence, threats, and family support. The results highlight the feasibility of NLP and BERTopic for automated analysis and their potential to support public policy development and social research
A violência doméstica e familiar (VDF) contra a mulher é um problema persistente e subnotificado. Com o avanço das mídias sociais, relatos espontâneos de vítimas tornaram-se fontes relevantes de dados, embora seu volume e complexidade exijam técnicas automatizadas de análise. Este estudo busca identificar tópicos emergentes em relatos não estruturados de mulheres vítimas de VDF publicados no YouTube, aplicando Processamento de Linguagem Natural (PLN), aprendizado de máquina não supervisionado e modelagem de tópicos. A metodologia incluiu coleta via API do YouTube, pré-processamento textual, geração de embeddings, redução de dimensionalidade (PCA e UMAP), clusterização (K-means e HDBSCAN) e extração de tópicos com BERTopic. O melhor desempenho foi obtido com a combinação UMAP + HDBSCAN sem stopwords, revelando temas como ciclo da violência, ameaças e apoio familiar. Os resultados evidenciam a viabilidade do PLN e do BERTopic para análise automatizada e apoio à formulação de políticas públicas e pesquisas sociais.