Resumen de Detecção de Phishing multicanal (e-mail, sms, sites): uma abordagem com deep learning utilizando DistilBERT, CNN, RNN e MLP

Fredman Wellington Lopes, Vinícius Pereira Gonçalves, Leandro Lopes Benfica

English
Phishing attacks remain among the most prevalent cybercrimes, increasingly intensified by the use of artificial intelligence. Traditional solutions reported in the literature are predominantly reactive, relying on prior knowledge of threats and the occurrence of new incidents (Hureau, 2024). This article proposes the D-CNN-BiLSTM-MLP model, a multichannel phishing detection system (e-mail, SMS, and websites) based on deep learning. The model employs DistilBERT (D) for semantic feature extraction, a CNN for local pattern recognition, a BiLSTM (RNN) to capture sequential and contextual dependencies, and an MLP for final classification. The system was trained on the ealveradob dataset, comprising 871,590 samples, using Google Colab Pro. Experimental results demonstrate strong performance, achieving a mean accuracy of 99.54% with K-Fold crossvalidation, a standard deviation of 0.0002, and an average inference time of 6.91 ms per sample. The proposed solution is implemented as a browser extension and a web application, includes functionalities for reporting incidents to CSIRTs and law enforcement agencies, and is compatible with mobile environments, including Android, iOS, and HyperOS.
português
Os ataques de phishing continuam sendo um dos crimes cibernéticos mais recorrentes, impulsionados pelo uso da IA. Soluções tradicionais na literatura mostram-se reativas, dependentes do conhecimento prévio da ameaça e de novos incidentes (Hureau, 2024). Este artigo propõe o modelo D-CNN-BiLSTM-MLP, um sistema de detecção de phishing multicanal (e-mail, SMS, sites) baseado em aprendizagem profunda. O modelo utiliza DistilBERT (D) para extração semântica, CNN para reconhecimento de padrões locais, BiLSTM (RNN) para capturar dependências sequenciais e contextuais e MLP para classificação final. Treinado com o dataset ealveradob de 871.590 amostras no Google Colab Pro. Os resultados experimentais indicam desempenho elevado, com validação K-Fold de acurácia média de 99.54%, desvio padrão 0.0002 e tempo médio de inferência 6.91 ms/ amostra. A solução é desenvolvida em uma ferramenta de extensão de navegadores, uma aplicação web, funcionalidades para reportar incidentes a CSIRTs e forças policiais, compatível com ambientes móveis Android, iOS e HyperOS.

Mi Ágora

Selección

Acceso de usuarios registrados

Resumen de Detecção de Phishing multicanal (e-mail, sms, sites): uma abordagem com deep learning utilizando DistilBERT, CNN, RNN e MLP

Mi Ágora