Aplicación de transductores de estado-finito a los procesos de unificación de términos
DOI:
https://doi.org/10.18225/ci.inf.v35i3.1114Palabras clave:
Unificación de términos, Lematización, Transductores de Estado-FinitoResumen
Se presenta una aplicación basada en técnicas de estado-finito a los procesos de unificación de términos en español. Los algoritmos de unificación, o conflación, de términos son procedimientos computacionales utilizados en algunos sistemas de Recuperación de Información (RI) para la reducción de variantes de términos, semánticamente equivalentes, a una forma normalizada. Los programas que realizan habitualmente este proceso se denominan: stemmers y lematizadores. El objetivo de este trabajo es evaluar el grado de deficiencias y errores de los lematizadores en el proceso de agrupación de los términos a su correspondiente radical. El método utilizado para la construcción del lematizador se ha basado en la implementación de una herramienta lingüística que permite construir diccionarios electrónicos representados internamente en Transductores de Estado-Finito. Los recursos léxicos desarrollados se han aplicado a un corpus de verificación para evaluar el funcionamiento de este tipo de analizadores léxicos. La métrica de evaluación utilizada ha sido una adaptación de las medidas de cobertura y precisión. Los resultados muestran que la principal limitación del proceso de unificación de variantes de término por medio de tecnología de estado-finito es el infra-análisis.
Palabras clave
Unificación de términos. Lematización. Transductores de estado-finito.
Application of transducers of state-finite to unification processes of term variants
Abstract
An approach based on techniques of state-finite has applied to the processes of unification of terms in Spanish. The algorithms of conflation are computational procedures utilized in some Information Retrieval (RI) systems for the unification of term variants, semantically equivalent, to a normalized form. The programs that carry out habitually this process are called: stemmers and lematizadores. The objective of this work is to evaluate the deficiencies and errors of the lematizadores in the conflation of terms. The method utilized for the construction of the lematizador has been based on the implementation of a linguistic tool that permits to build electronic dictionaries represented internally in Finite-State Transducers (FST). The lexical resources developed have applied to a corpus of verification to evaluate the performance of these lexical parsers. The metric of evaluation utilized has been an adaptation of coverage and precision measures. The results show that the main limitation of unification processes of tem variants through technology of state-finite is the under-analysis.
Keywords
Term conflation. Lemmatization. Finite-state transducers.
Descargas
Descargas
Publicado
Número
Sección
Licencia
- La publicación se reserva el direcho de realizar, en los originales, cambios de orden normativa, ortográfica y gramatical, para mantener la norma culta del idioma, respetando el estilo de los autores;
- Las pruebas finales no seran enviadas a los autores;
- Los trabajos publicados pasan a ser propriedad de la revista Ciência da Informação, siendo su reimpresión total o parcial, sujeta a autorización expresa de la dirección del IBICT;
- Debe ser consignada la fuente de publicação original;
- Són de exclusiva responsabilidad de los autores las opiniones emitidas en sus artículos;
- Cada autor recibirá dos ejemplares de la revista, caso esté disponible en el formato impreso.