Representação de conteúdo via indexação automática em textos integrais em língua portuguesa
Recuperação da informação. Indexação automática derivativa. Fórmula de Transição de Goffman.Abstract
Verifica-se a possibilidade da indexação automática derivativa de textos em língua portuguesa, a partir de seu texto integral. É aplicada a Fórmula de Transição de Goffman a 10 artigos na área de Bibliometria e formulado um algorltimo probabilístico de indexação. A Fórmula de Transição de Goffman ê perfeitamente aplicável à língua portuguesa, apontando para uma região de frequência de palavras onde estão concentradas as palavras indicativas do conteúdo dos artigos analisados.
Recuperação da informação. Indexação automática derivativa. Fórmula de Transição de Goffman.
Representation of contents by the automatic indexing process of full texts in Portuguese language
Possibility of automatic derived indexing of full texts in Portuguese is verifyed. Ten papers in Bibliometrics were indexed and their different parts considered for quantitative and qualitative analysis. Structure and disíríbution patterns of words were studied. Goffman's transition formula proved to be adequate as a slarting point for the indexing algorithm, which yielded, in all papers, a concentration zone forsemantic loaded terms. The algorithm worked as an uncenainty reducer, feading to the semantically important words.
Information retrieval. Automatic derived indexing. Goffman's transition formula.
- This publication reserves the right to modify the original, regarding norms, spelling and grammar, in order to maintain the standards of the language, still respecting author writing style;
- The final proofs will not be sent to the authors;
- Published works become Ciência da Informação's property, their second partial or full print being subject to expressed authorization by IBICT's Director;
- The original source of publicaton must be provided at all times;
- The authors are solely responsible fo the views expressed within the article;
- Each author will receive two hard copies of the issue, if made availalbe in print.