Rodrigo Costas , María Bordons Gangas
Se presentan dos algoritmos para detectar y solventar problemas de normalización de nombres de autores en datos procedentes de la base de datos Science Citation Index de Thomson ISI. El primer algoritmo permite detectar firmas diferentes que, por su parecido, podrían pertenecer a una misma persona. El segundo ayuda a determinar si dos firmas parecidas se corresponden o no con una misma persona en función del grado de similaridad existente entre los documentos de una y otra variante de firma. Para determinar la eficacia de los algoritmos se han utilizado como control los datos de autores normalizados de un estudio anterior. El algoritmo detecta un 67% de las variantes de firma existentes en la población objeto de estudio y tiene un 74% de acierto en la determinación de si esas firmas corresponden a una misma persona.
Two algorithms to detect and solve normalization problems of author names in data originated in Thomson's ISI Science Citation Index are presented. The first algorithm allows detection of different names which could belong to the same person. The second one, based on the degree of similarity between two variants of the same name on a document, helps to determine whether two similar names correspond or not to the same person. In order to determine the efficacy of the algorithms, a control of normalized author data from a previous study has been used. The First algorithm detects 67% of name variants existing in the population under study, and the second one was successful in 74% of the cases.