Indexação automática baseada em métodos lingüísticos e estatísticos e sua aplicabilidade à língua portuguesa

Alexandre Andreewski, Vitoriano Ruas

Resumo


Considera-se neste artigo a indexação automática usando o processamento de documentos em linguagem natural, que é obtido com o auxílio de métodos linguísticos combinados com métodos estatísticos permitindo uma indexação ponderada. A título ilustrativo descreve-set em linhas gerais, um sistema de indexação desse género denominado SPIRIT, o qual foi desenvolvido para o idioma francês por uma equipe de pesquisadores do CNRS. Enfim, são tratados aspectos essenciais de sua adaptação à língua portuguesa.

Descritores

Ambiguidade. Análise sintética. Entropia. Estatística. Filtros. Indexação automática. Indexação ponderada. Linguística. Matrizes de precedência. Método de aprendizado. Proximidade. Relações léxicosemânticas.

Abstract

This paper deals with automatic indexing based on linguistic and statistical methods, which aims to allow the processing of documents in natural language. The main lines of a system called SPIRIT, that uses such methods, and that was developed for the French Languages by a group of researchers of the CNRS, including the first author,is described. Some basic aspects of the applicability of those methods to the Portuguese Language are considered.


Palavras-chave


Ambiguidade. Análise sintética. Entropia. Estatística. Filtros. Indexação automática. Indexação ponderada. Linguística. Matrizes de precedência. Método de aprendizado. Proximidade. Relações léxicosemânticas

Texto completo:

PDF

Apontamentos

  • Não há apontamentos.


Direitos autorais 1969 Alexandre Andreewski, Vitoriano Ruas

Licença Creative Commons
Esta obra está licenciada sob uma licença Creative Commons Atribuição - Não comercial - Compartilhar igual 4.0 Internacional.


Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)
SAUS - Setor de Autarquias Sul, Quadra 5, Lote 6, Bloco H
Seção de Editoração - sala 500
CEP 70070-912
Brasília-DF, Brasil

Licença Creative Commons
Todo o conteúdo publicado nesta revista está licenciado com uma Licença Creative Commons - Atribuição-CompartilhaIgual 4.0 Internacional.