Brasil
This article presents a method for extracting data, generating intelligence, and performing analysis from documents published in the Judicial Gazettes of the Brazilian Labor Courts. To this end, a methodology was developed based on Open-Source Intelligence (OSINT) and specific criteria guiding the steps and processing of the open data source. After defining processes and automating data collection to enable data processing and cleansing, a natural language processing (NLP) framework was applied to extract and index named entities, facilitating their identification and retrieval in subsequent analyses. The results demonstrate an efficient mechanism for integrating OSINT with NLP, transforming unstructured data into structured data and accurately identifying named entities.
The proposed approach defines an automated data and information flow that supports the identification and removal of named entities during investigations by government agencies. The technique was applied at the Brazilian Attorney General’s Office (AGU), providing early access to information before it appeared in official databases.
Este artigo apresenta um método para extrair dados, produzir inteligência e realizar análises a partir dos documentos fornecidos pelos Diários Judiciários da Justiça do Trabalho do Brasil. Para tanto, adotou-se uma metodologia considerando OpenSource Intelligence (OSINT) com critérios específicos que orienta as etapas e o tratamento da fonte de dados abertos. Após a definição de processos e automatização de coleta de dados, de forma a permitir processamento e limpeza de dados, utilizouse uma estrutura de processamento de linguagem natural para extrair entidades nomeadas e indexá-las, permitindo sua posterior identificação e recuperação em processos de análise. Os resultados apontam para um mecanismo eficiente de uso de OSINT integrado com NLP, que transforma dados não estruturados em dados estruturados, além de fazer a identificação de entidades nomeadas com bons índices de acurácia. A proposta define um processo automatizado de fluxo de dados e informações que permite a identificação e extração de entidades nomeadas em processos de investigação por órgãos de governo. A técnica descrita foi aplicada na Advocacia Geral da União (AGU) do Brasil e permitiu a visibilidade de informações antes não encontradas nas bases de dados.