Descripció automàtica d'arxius audiovisuals: NeuralTalk, un model de video-to-text aplicat a l'arxiu de RTVE

Virginia Bazán Gil; Ricardo Guerrero Gómez Olmedo

Descripció automàtica d'arxius audiovisuals: NeuralTalk, un model de video-to-text aplicat a l'arxiu de RTVE

Autores: Virginia Bazán Gil, Ricardo Guerrero Gómez Olmedo
Localización: BiD: Textos universitaris de biblioteconomia i documentació, ISSN-e 1575-5886, Nº. 41, 2018
Idioma: catalán
DOI: 10.1344/BiD2018.41.6
Títulos paralelos:
- The automated description of audiovisual archives : NeuralTalk, a video captioning model applied to the archive of the spanish radio and television corporation
- Descripción automática de archivos audiovisuales: NeuralTalk, un modelo de video2text aplicado al archivo de RTVE
Enlaces
- Texto completo (pdf)

Dialnet Métricas: 1 Cita

Resumen
- español
  Objetivo: determinar la madurez de los sistemas de video-to-text para la descripción automática de imágenes en un archivo de televisión.
  
  Metodología: se realiza una prueba de concepto mediante un sistema de video-to-text desarrollado ad hoc. La prueba se articuló en tres fases o iteraciones distintas entre junio de 2016 y enero de 2017. En las dos primeras iteraciones el sistema analizó un número determinado de contenidos procedentes del archivo de RTVE, las descripciones se valoraron para establecer la tasa de acierto del sistema o, en otras palabras, cómo de cercana era dicha descripción a la que podía haber suministrado un ser humano. En una tercera fase, y previamente al análisis de los contenidos, se entrenó al sistema utilizando técnicas de aprendizaje profundo con el objetivo de mejorar los resultados.
  
  Resultados: los resultados obtenidos ponen de manifiesto que se trata de una tecnología prometedora, si bien resulta fundamental profundizar más en los mecanismos que serían necesarios para su puesta en producción en los archivos de televisión.
- English
  Objective: To assess the deep learning capability of a video captioning model for automated image description in a television archive.
  
  Methodology: Our proof of concept tested an ad hoc video-captioning model in three iterations between June 2016 and January 2017. In the first and second iterations the model was used to analyse a selection of content from the archives of the Spanish Radio and Television Corporation (RTVE) and the descriptions it generated were evaluated to determine the model’s success rate, i.e., how close it came to providing human-like image descriptions. In the third iteration and before the content was analysed, the model was trained using deep learning techniques to optimise the results.
  
  Results: The results indicate that the model has potential, although further development will be required to customise its use in television archives.
- català
  Objectiu: determinar la maduresa dels sistemes de video-to-text per a la descripció automàtica d'imatges en un arxiu de televisió.
  
  Metodologia: es fa una prova de concepte mitjançant un sistema de video-to-text desenvolupat ad hoc. La prova es va articular en tres fases o iteracions diferents entre juny de 2016 i gener de 2017. En les dues primeres iteracions el sistema va analitzar un nombre determinat de continguts procedents de l'arxiu de RTVE, les descripcions es van valorar per establir la taxa d'encert del sistema o, en altres paraules, com de propera era aquesta descripció a la que podia haver subministrat un ésser humà. En una tercera fase, i prèviament a l'anàlisi dels continguts, es va entrenar el sistema utilitzant tècniques d'aprenentatge profund amb l'objectiu de millorar els resultats.
  
  Resultats: els resultats obtinguts posen de manifest que es tracta d'una tecnologia prometedora, si bé resulta fonamental aprofundir més en els mecanismes que serien necessaris per a la seva posada en producció en els arxius de televisió.
Referencias bibliográficas
- 24h (2018). Presentación del Journalism Innovation HUB de @rtve en el @BIT_audiovisual [vídeo]. . [Consulta: 08/06/2018].
- Agirreazaldegi, T. (2007). "Claves y retos de la documentación digital en televisión". El profesional de la información, v. 16, n.o...
- Aguilar, M.; López de Solís, I. (2010). "Nuevos modos de trabajo de una redacción digital integrada: el caso de los servicios informativos...
- Anguera, X. et al. (2012). "Speaker diarization: A review of recent research". IEEE Transactions on audio, speech, and language processing,...
- Bazán, V. et al. (2018). Semantics, automatic metadata and audiovisual contents. A case of study: Barcelona International Manga Fair. . [Consulta:...
- Caldera Serrano, J.; Arranz, P. (2013). Documentación audiovisual en televisión. Barcelona: Editorial UOC.
- Carrillo, J.; González, A. (2018). La inteligencia artificial aplicada a los archivos de televisión. . [Consulta: 04/06/2018].
- Etiqmedia (2018). Catalogación automática en entornos audiovisuales [vídeo]. . [Consulta: 08/06/2018].
- FIAT/IFTA Media Management Commission (2017). FIAT/IFTA MAM Survey 2017: Highlights from the results analysis. . [Consulta: 04/06/2018].
- García, J. (2018). Machine Learning aplicado en el sector media. . [Consulta: 04/06/2018].
- Giménez Rayo, M. (2012). "La documentación audiovisual en televisión en el mundo 2.0: retos y oportunidades". Trípodos, n.o 31, p....
- Giménez Rayo, M.; Guallar, J. (2014). "Centros de documentación en televisión y productos documentales". El profesional de la información,...
- Google (2018). Cloud Video Intelligence. . [Consulta: 08/06/2018].
- Guerrero, R. (2017). Introducción al Deep Learning y su uso en clasificación de imágenes [vídeo]. . [Consulta: 04/06/2017].
- IBM (2018). Watson. . [Consulta: 08/06/2018].
- Karpathy, A. (2015). "NeuralTalk is a Python+numpy project for learning Multimodal Recurrent Neural Networks that describe images...
- — (2016). "Efficient Image Captioning code in Torch, runs on GPU". . [Consulta: 10/06/2018].
- Karpathy, A.; Fei-Fei, L. (2016). "Deep Visual-Semantic Alignments for Generating Image Descriptions". IEEE Transactions on pattern...
- Lleida, E. (2018). Tecnologías para el análisis y metadatado de contenidos audiovisuales. . [Consulta: 04/06/2018].
- López de Quintana, E. (2014). "Rasgos y trayectorias de la documentación audiovisual: logros, retos y quimeras". El profesional de...
- Manders, T. (2018). It's all about data. . [Consulta: 06/06/2018].
- McDonald, K. (2015). NeuralTalk and walk. [Vídeo]. . [Consulta: 07/06/2018].
- Microsoft (2018). Video Indexer. . [Consulta: 08/06/2018].
- Pandolfi, F. M.; Desirello, D. (2017). A framework for visual search in broadcast archives. . [Consulta: 06/06/2018].
- Pastor, J.; Escribano, M. (2018). Descripción semántica de escenas ¿El esperanto de las búsquedas? . [Consulta: 08/06/2018].
- RTVE (2018). Google se suma al proyecto "Journalism Innovation HUB" de RTVE. . [Consulta: 08/06/2018].
- Selkälä, E. (2017). Automated metadata generation. Projects at YLE. . [Consulta: 06/06/2018].
- Shallue, C. (2016). Show and tell: image captioning open sourced in TensorFlow. . [Consulta: 08/06/2018].
- Sound and Vision; Waag Society; Amsterdam Museum; University of Amsterdam (2017). Freeze! A manifesto for safeguarding and preserving born-digital...
- Teruggi, D. (2018). Preservación audiovisual: ¿Qué queda por hacer y qué podemos llegar a hacer? . [Consulta: 08/06/2018].
- Vinyals, O.; Toshev, A.; Bengio, S. (2016). "Show and Tell: Lessons Learned from the 2015 MSCOCO Image Captioning Challenge". IEEE...
- Vinyals, O. et al. (2015). "Show and tell: A neural image caption generator". IEEE Conference on computer vision and pattern recognition...
- VSN (2018). VSNExplorer Artificial Intelligence. . [Consulta: 08/06/2018].
- Wang, X. (2018). "TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reporting in Chest X-rays". ....

Mi Ágora

Selección

Opciones de artículo

Seleccionado

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Acceso de usuarios registrados

Descripció automàtica d'arxius audiovisuals: NeuralTalk, un model de video-to-text aplicat a l'arxiu de RTVE

Mi Ágora

Opciones de artículo

Opciones de compartir

Opciones de entorno