Aplicación de transductores de estado-finito a los procesos de unificación de términos

Authors

  • Carmen Galvez Universidad de Granada, Depto Biblioteconomia y Documentacion

DOI:

https://doi.org/10.18225/ci.inf.v35i3.1114

Keywords:

Unificación de términos, Lematización, Transductores de Estado-Finito

Abstract

Se presenta una aplicación basada en técnicas de estado-finito a los procesos de unificación de términos en español. Los algoritmos de unificación, o conflación, de términos son procedimientos computacionales utilizados en algunos sistemas de Recuperación de Información (RI) para la reducción de variantes de términos, semánticamente equivalentes, a una forma normalizada. Los programas que realizan habitualmente este proceso se denominan: stemmers y lematizadores. El objetivo de este trabajo es evaluar el grado de deficiencias y errores de los lematizadores en el proceso de agrupación de los términos a su correspondiente radical. El método utilizado para la construcción del lematizador se ha basado en la implementación de una herramienta lingüística que permite construir diccionarios electrónicos representados internamente en Transductores de Estado-Finito. Los recursos léxicos desarrollados se han aplicado a un corpus de verificación para evaluar el funcionamiento de este tipo de analizadores léxicos. La métrica de evaluación utilizada ha sido una adaptación de las medidas de cobertura y precisión. Los resultados muestran que la principal limitación del proceso de unificación de variantes de término por medio de tecnología de estado-finito es el infra-análisis.

Palabras clave
Unificación de términos. Lematización. Transductores de estado-finito.

Application of transducers of state-finite to unification processes of term variants

Abstract

An approach based on techniques of state-finite has applied to the processes of unification of terms in Spanish. The algorithms of conflation are computational procedures utilized in some Information Retrieval (RI) systems for the unification of term variants, semantically equivalent, to a normalized form. The programs that carry out habitually this process are called: stemmers and lematizadores. The objective of this work is to evaluate the deficiencies and errors of the lematizadores in the conflation of terms. The method utilized for the construction of the lematizador has been based on the implementation of a linguistic tool that permits to build electronic dictionaries represented internally in Finite-State Transducers (FST). The lexical resources developed have applied to a corpus of verification to evaluate the performance of these lexical parsers. The metric of evaluation utilized has been an adaptation of coverage and precision measures. The results show that the main limitation of unification processes of tem variants through technology of state-finite is the under-analysis.

Keywords
Term conflation. Lemmatization. Finite-state transducers.

Downloads

Download data is not yet available.

Author Biography

  • Carmen Galvez, Universidad de Granada, Depto Biblioteconomia y Documentacion
    Dr. Carmen Galvez Facultad de Biblioteconomía y Documentación Universidad de Granada Campus Cartuja 18071 Granada, Spain Recibió el grado de Doctora en Documentación en 2003 por la Universidad de Granada con la tesis titulada: “Reconocimiento y Control de Expresiones Lingüísticas por medio de Transductores de Estado-Finito” dirigida por el Dr. Félix de Moya-Anegón. Su área de investigación se centra en la aplicación de técnicas del Procesamiento del Lenguaje Natural (PLN) a los procesos de indización automática. Es miembro de la SEPLN (Sociedad Española para el Procesamiento del Lenguaje Natural). Tiene distintas publicaciones sobre las técnicas implicadas en los procesos de condensación dentro del Análisis Documental de Contenido (ADC), entre ellas: Análisis Documental de Contenido: Procesamiento de la Información, Madrid, Síntesis, 1996; "Paradigms for abstracting systems" en Journal of Information Science 1999, 25 (5). Recientemente ha publicado trabajos sobre los procesos de unificación de términos por medio de métodos de estado-finito aplicados a los sistemas de Recuperación de Información: “Term conflation methods in information retrieval: non-linguistic and linguistic approaches” en Journal of Documentation 2005, 61 (4); “Approximate personal name-matching through finite-state graphs” en Journal of the American Society for Information Science and Technology (en prensa); “An evaluation of conflation accuracy using Finite-State Transducers” en Journal of Documentation (en prensa).

Published

07/07/2007

Issue

Section

Articles