Aplicación de transductores de estado-finito a los procesos de unificación de términos
DOI:
https://doi.org/10.18225/ci.inf.v35i3.1114Palavras-chave:
Unificación de términos, Lematización, Transductores de Estado-FinitoResumo
Se presenta una aplicación basada en técnicas de estado-finito a los procesos de unificación de términos en español. Los algoritmos de unificación, o conflación, de términos son procedimientos computacionales utilizados en algunos sistemas de Recuperación de Información (RI) para la reducción de variantes de términos, semánticamente equivalentes, a una forma normalizada. Los programas que realizan habitualmente este proceso se denominan: stemmers y lematizadores. El objetivo de este trabajo es evaluar el grado de deficiencias y errores de los lematizadores en el proceso de agrupación de los términos a su correspondiente radical. El método utilizado para la construcción del lematizador se ha basado en la implementación de una herramienta lingüística que permite construir diccionarios electrónicos representados internamente en Transductores de Estado-Finito. Los recursos léxicos desarrollados se han aplicado a un corpus de verificación para evaluar el funcionamiento de este tipo de analizadores léxicos. La métrica de evaluación utilizada ha sido una adaptación de las medidas de cobertura y precisión. Los resultados muestran que la principal limitación del proceso de unificación de variantes de término por medio de tecnología de estado-finito es el infra-análisis.
Palabras clave
Unificación de términos. Lematización. Transductores de estado-finito.
Application of transducers of state-finite to unification processes of term variants
Abstract
An approach based on techniques of state-finite has applied to the processes of unification of terms in Spanish. The algorithms of conflation are computational procedures utilized in some Information Retrieval (RI) systems for the unification of term variants, semantically equivalent, to a normalized form. The programs that carry out habitually this process are called: stemmers and lematizadores. The objective of this work is to evaluate the deficiencies and errors of the lematizadores in the conflation of terms. The method utilized for the construction of the lematizador has been based on the implementation of a linguistic tool that permits to build electronic dictionaries represented internally in Finite-State Transducers (FST). The lexical resources developed have applied to a corpus of verification to evaluate the performance of these lexical parsers. The metric of evaluation utilized has been an adaptation of coverage and precision measures. The results show that the main limitation of unification processes of tem variants through technology of state-finite is the under-analysis.
Keywords
Term conflation. Lemmatization. Finite-state transducers.
Downloads
Publicado
Edição
Seção
Licença
- A publicação se reserva o direito de efetuar, nos originais, alterações de ordem normativa, ortográfica e gramatical, com vistas a manter o padrão culto da língua, respeitando, porém, o estilo dos autores;
- As provas finais não serão enviadas aos autores;
- Os autores mantém os direitos totais sobre seus trabalhos publicados na revista Ciência da Informação, ficando sua reimpressão total ou parcial, depósito ou republicação sujeita à indicação de primeira publicação na revista, por meio da Licença Pública 4.0 Internacional Atribuição-CompartilharIgual
- Deve ser consignada a fonte de publicação original;
- As opiniões emitidas pelos autores dos artigos são de sua exclusiva responsabilidade;
- Cada autor receberá dois exemplares da revista, caso esteja disponível no formato impresso.