Aplicación de transductores de estado-finito a los procesos de unificación de términos
DOI:
https://doi.org/10.18225/ci.inf.v35i3.1114Keywords:
Unificación de términos, Lematización, Transductores de Estado-FinitoAbstract
Se presenta una aplicación basada en técnicas de estado-finito a los procesos de unificación de términos en español. Los algoritmos de unificación, o conflación, de términos son procedimientos computacionales utilizados en algunos sistemas de Recuperación de Información (RI) para la reducción de variantes de términos, semánticamente equivalentes, a una forma normalizada. Los programas que realizan habitualmente este proceso se denominan: stemmers y lematizadores. El objetivo de este trabajo es evaluar el grado de deficiencias y errores de los lematizadores en el proceso de agrupación de los términos a su correspondiente radical. El método utilizado para la construcción del lematizador se ha basado en la implementación de una herramienta lingüística que permite construir diccionarios electrónicos representados internamente en Transductores de Estado-Finito. Los recursos léxicos desarrollados se han aplicado a un corpus de verificación para evaluar el funcionamiento de este tipo de analizadores léxicos. La métrica de evaluación utilizada ha sido una adaptación de las medidas de cobertura y precisión. Los resultados muestran que la principal limitación del proceso de unificación de variantes de término por medio de tecnología de estado-finito es el infra-análisis.
Palabras clave
Unificación de términos. Lematización. Transductores de estado-finito.
Application of transducers of state-finite to unification processes of term variants
Abstract
An approach based on techniques of state-finite has applied to the processes of unification of terms in Spanish. The algorithms of conflation are computational procedures utilized in some Information Retrieval (RI) systems for the unification of term variants, semantically equivalent, to a normalized form. The programs that carry out habitually this process are called: stemmers and lematizadores. The objective of this work is to evaluate the deficiencies and errors of the lematizadores in the conflation of terms. The method utilized for the construction of the lematizador has been based on the implementation of a linguistic tool that permits to build electronic dictionaries represented internally in Finite-State Transducers (FST). The lexical resources developed have applied to a corpus of verification to evaluate the performance of these lexical parsers. The metric of evaluation utilized has been an adaptation of coverage and precision measures. The results show that the main limitation of unification processes of tem variants through technology of state-finite is the under-analysis.
Keywords
Term conflation. Lemmatization. Finite-state transducers.
Downloads
Downloads
Published
Issue
Section
License
- This publication reserves the right to modify the original, regarding norms, spelling and grammar, in order to maintain the standards of the language, still respecting author writing style;
- The final proofs will not be sent to the authors;
- Published works become Ciência da Informação's property, their second partial or full print being subject to expressed authorization by IBICT's Director;
- The original source of publicaton must be provided at all times;
- The authors are solely responsible fo the views expressed within the article;
- Each author will receive two hard copies of the issue, if made availalbe in print.