México
El diagnóstico temprano de enfermedades foliares es crucial para la seguridad alimentaria; sin embargo, existe una brecha de aplicabilidad (reality gap) que limita la viabilidad operativa de los modelos de Deep Learning en entornos agrícolas reales debido a su alta complejidad computacional y sensibilidad al ruido visual. El objetivo de este estudio es diseñar, validar y desplegar una arquitectura híbrida y ligera (AgroScan) capaz de operar como una herramienta de soporte de decisiones en tiempo real frente a 49 enfermedades distribuidas en 10 cultivos de alto impacto. La metodología propone un proceso de inferencia de dos etapas: un modelo “portero” de filtrado binario para mitigar el ruido de fondo visual, seguido de un clasificador entrenado con 98,000 imágenes, que fusiona la eficiencia paramétrica de EfficientNetB0 con la capacidad de correlación espacial de un módulo Transformer (Multi-Head Self-Attention). Entrenado y evaluado sobre 98,000 imágenes. La arquitectura híbrida alcanzó una exactitud global del 94.69% (IC 95%: [94.28%, 95.11%]) y un F1-Score de 94.68% (IC 95%: [94.22%, 95.08%]). Los intervalos de confianza se calcularon con remuestreo no paramétrico sobre el conjunto de prueba. El aporte principal del estudio radica en la demostración empírica de que la atención global incrementa la exactitud en el diagnóstico de enfermedades manteniendo una latencia de inferencia (9.45 ms por imagen). Finalmente, la implementación de la arquitectura mediante una plataforma cliente-servidor accesible a través de aplicaciones web y móviles, ha demostrado su robustez operativa como herramienta viable de apoyo agrícola.
The early diagnosis of foliar diseases is crucial for food security; however, there is an applicability gap (reality gap) that limits the operational viability of Deep Learning models in real agricultural environments due to their high computational complexity and sensitivity to visual noise. The objective of this study is to design, validate, and deploy a lightweight, hybrid architecture (AgroScan) capable of operating as a real-time decision support tool against 49 diseases distributed across 10 high-impact crops. The methodology proposes a two-stage inference process: a binary filtering "gatekeeper" model to mitigate visual background noise, followed by a classifier trained on 98,000 images, which fuses the parametric efficiency of EfficientNetB0 with the spatial correlation capability of a Transformer module (Multi-Head Self-Attention). Trained and evaluated on 98,000 images. The hybrid architecture achieved an overall accuracy of 94.69% (95% CI: [94.28%, 95.11%]) and an F1-Score of 94.68% (95% CI: [94.22%, 95.08%]). Confidence intervals were calculated using non-parametric resampling on the test set. The main contribution of the study lies in the empirical demonstration that global attention increases accuracy in disease diagnosis while maintaining an inference latency (9.45 ms per image). Finally, the implementation of the architecture through a client-server platform, accessible via web and mobile applications, has demonstrated its operational robustness as a viable agricultural support tool.