Los problemas de identificación de caracteres OCR para la recuperación de texto en el libro antiguo: un análisis de caso  en el Fondo  Antiguo de la Biblioteca Central, UNAM

Silvia Socorro Ballesteros Estrada; Guillermo Morales Romero; Pavel Alfredo Cedillo Pérez

Los problemas de identificación de caracteres OCR para la recuperación de texto en el libro antiguo: un análisis de caso en el Fondo Antiguo de la Biblioteca Central, UNAM

Autores: Silvia Socorro Ballesteros Estrada, Guillermo Morales Romero, Pavel Alfredo Cedillo Pérez
Localización: Biblioteca Universitaria: Revista de la Dirección de Bibliotecas de la UNAM, ISSN 0187-750X, Vol. 15, Nº. 1, 2012, págs. 25-34
Idioma: español
DOI: 10.22201/dgb.0187750xp.2012.1.39
Texto completo no disponible (Saber más ...)
Resumen
- español
  El presente artículo describe de manera general los problemas enfrentados para lograr una correcta recuperación de texto por medio del reconocimiento óptico de caracteres (OCR) en el libro antiguo, tomando una muestra de las obras de los siglos XV al XVIII que resguarda el Fondo Antiguo de la Biblioteca Central de la Universidad Nacional Autónoma de México (UNAM), digitalizadas por la Dirección General de Bibliotecas (DGB). Se presenta, en primer lugar, la exposición teórica conceptual del OCR y su aplicación en la recuperación de texto para continuar con la ejemplificación de los factores que determinan la correcta o incorrecta identificación de los grafemas en estos libros mediante las pruebas aplicadas con el software Adobe Acrobat 8 Professional y, por último, muestra algunos hallazgos obtenidos como producto del análisis e interpretación de los datos correspndientes a las variables.
- English
  This article describes, in general terms, the problems faced for proper text retrieval through optical character recognition (OCR) in ancient books, by taking a sample of works from the fifteenth to the eighteenth centuries that are protected in the Ancient Collections of the Central Library at UNAM, and digitized by the General Directorate of Libraries. It first presents a conceptual theoretical exposition of OCR and its application in text retieval to continue with the exemplification of the factors that determine the correct o incorrect identification of the graphemes in these books, by means of some texts applied with Adobe Acrobat 8 Professional and, last, it shows some findings obtained as a result of the analysis and interpretation of the data corresponding to the variables in question.

Mi Ágora

Selección

Opciones de artículo

Seleccionado

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Acceso de usuarios registrados

Los problemas de identificación de caracteres OCR para la recuperación de texto en el libro antiguo: un análisis de caso en el Fondo Antiguo de la Biblioteca Central, UNAM

Mi Ágora

Opciones de artículo

Opciones de compartir

Opciones de entorno