El presente artículo describe de manera general los problemas enfrentados para lograr una correcta recuperación de texto por medio del reconocimiento óptico de caracteres (OCR) en el libro antiguo, tomando una muestra de las obras de los siglos XV al XVIII que resguarda el Fondo Antiguo de la Biblioteca Central de la Universidad Nacional Autónoma de México (UNAM), digitalizadas por la Dirección General de Bibliotecas (DGB). Se presenta, en primer lugar, la exposición teórica conceptual del OCR y su aplicación en la recuperación de texto para continuar con la ejemplificación de los factores que determinan la correcta o incorrecta identificación de los grafemas en estos libros mediante las pruebas aplicadas con el software Adobe Acrobat 8 Professional y, por último, muestra algunos hallazgos obtenidos como producto del análisis e interpretación de los datos correspndientes a las variables.
This article describes, in general terms, the problems faced for proper text retrieval through optical character recognition (OCR) in ancient books, by taking a sample of works from the fifteenth to the eighteenth centuries that are protected in the Ancient Collections of the Central Library at UNAM, and digitized by the General Directorate of Libraries. It first presents a conceptual theoretical exposition of OCR and its application in text retieval to continue with the exemplification of the factors that determine the correct o incorrect identification of the graphemes in these books, by means of some texts applied with Adobe Acrobat 8 Professional and, last, it shows some findings obtained as a result of the analysis and interpretation of the data corresponding to the variables in question.