Sistemas de informação em linguagem natural: em busca de uma indexação automática
DOI:
https://doi.org/10.18225/ci.inf.v21i3.435Palavras-chave:
Recuperação da informação. Indexação automática. Tratamento automático da linguagem natural. Gramáticas Afixos.Resumo
Este artigo aborda o tratamento automático de linguagens naturais, particularmente a descrição do conteúdo informacional de textos, para melhorar sua indexação e preencher os requisitos dos sistemas de informação documentária, a partir de elementos fornecidos pela estruturação dos sintagmas nominais (SN). Uma nova ferramenta para análise morfossintática foi criada e desenvolvida com a linguagem de programação Starlet, baseada na teoria de Gramáticas Afixos,
gramáticas em dois níveis, resultante do trabalho anterior de C.H. A. Koster. Usando-se gramáticas em dois níveis, aumentou-se a capacidade descritiva desta nova linguagem e produziu-se um simples e elegante modelo que possibilitou uma representação mais detalhada dos procedimentos
de análise. Um corpo maior constituído de textos da
Agence France Presse (AFP News Brieves) foi usado para testar o analisador morfossintático. Os resultados demonstraram claramente a capacidade das gramáticas em dois níveis para alcançar a formalização de fenômenos lingüísticos. As
vantagens importantes deste método repousam na capacidade de se ter controle mais específico sobre a aplicação das regras de análise. Uma descrição mais sintática conduza programas mais bem adaptados ao meio computadorizado e às
necessidades lingüísticas.
Palavras-chave
Recuperação da informação. Indexação automática. Tratamento automático da linguagem
natural. Gramáticas Afixos.
Information systems in natural languages: looking for an automatic indexing
Abstract
This paper deals with the automatic treatment of natural languages, particularly the informational description of texts in order to improve their indexing and match the requirements of documentary information systems from noun phrase structured
elements. A new tool for morpho-syntactic analysis was created and developed with the programming language Starlet based on the theory of Affix Grammars, two-level grammars, which resulted from C.H.A. Koster's early work. Using two-level grammars increased the descriptive power of this new language
and produced a simple and elegant frame that allowed
a more detailed representation of the analysis procedures. A large corpus of texts from Agence France Presse (AFP News Brieves) was used to test the morpno-syntatic analyser. The results clearly demonstrated the power of two-level grammars to reach linguistics phenomena formalization. The main
advantages of this method lay in the ability to have stricter control on analysis rules. A better syntatic description leads to programs better adapted to computerized environment and linguistics needs.
Keywords
Information retrieval. Automatic indexing. Automatic
treatment of natural languages. Affix Grammars.
Downloads
Downloads
Edição
Seção
Licença
- A publicação se reserva o direito de efetuar, nos originais, alterações de ordem normativa, ortográfica e gramatical, com vistas a manter o padrão culto da língua, respeitando, porém, o estilo dos autores;
- As provas finais não serão enviadas aos autores;
- Os autores mantém os direitos totais sobre seus trabalhos publicados na revista Ciência da Informação, ficando sua reimpressão total ou parcial, depósito ou republicação sujeita à indicação de primeira publicação na revista, por meio da Licença Pública 4.0 Internacional Atribuição-CompartilharIgual
- Deve ser consignada a fonte de publicação original;
- As opiniões emitidas pelos autores dos artigos são de sua exclusiva responsabilidade;
- Cada autor receberá dois exemplares da revista, caso esteja disponível no formato impresso.