Introducción. Los nombres de las substancias químicas son largos, complejos y propensos a la variación. Este estudio investiga los efectos en la recuperación de la variación.
Método. Se extrajo un gran conjunto de acrónimos y partes textuales asociadas de un subconjunto de la colección Medline y se usó para construir un índice completo de nombre-acrónimo. Se diseñó una técnica basada en la subsecuencia común más larga y estadística (denominada FNV-Finder) para identificar las variantes de términos MeSH desde el índice completo de nombre-acrónimo para su uso como términos de consulta en búsquedas. Se evaluó el número medio de variantes para cada término MeSH, el desempeño de la técnica FNV-Finder y el desempeño de la recuperación.
Resultados. El número medio de variantes únicas de cada término MeSH denotando una substancia química es de 2.82. La técnica FNV-Finder logró un 95.0% de exhaustividad y un 97.1% de precisión. Los experimentos de recuperación mostraron que la colección contiene un número sustancial de documentos que contienen sólo variantes de los términos MeSH (y no contiene términos MeSH o números de registro CAS).
Conclusiones. La selección de formas variantes para las consultas desde una colección sería muy útil o incluso necesaria en la búsqueda de nombres químicos. Pueden seleccionarse rápidamente las formas variantes del índice nombre completo - acrónimo manual o automáticamente usando la técnica FNV-Finder.
Introduction. Chemical substance names are long, complex and prone to variation. This study investigates the retrieval effects of the variation.
Method. A large set of acronyms and associated text parts was extracted from a subset of the Medline collection and used to construct a full name - acronym index. A longest common subsequence and statistics based technique (named FNV-Finder) was devised to identify MeSH term variants from the full name - acronym index for use as query terms in searching. The average number of variants for each MeSH term, the performance of the FNV-Finder technique and retrieval performance were evaluated.
Results. The average number of unique variants for each MeSH term denoting a chemical substance is 2.82. The FNV-Finder technique achieved 95.0% recall and 97.1% precision. The retrieval experiments showed that the collection contains a substantial number of documents that contain only variant forms of the MeSH terms (and do not contain the MeSH terms or CAS registry numbers).
Conclusions. The selection of variant forms for queries from a collection would be very useful or even necessary in chemical name searching. Variant forms can be selected readily from the full name - acronym index either manually or automatically using the FNV-Finder technique.