Indexação e recuperação da informação com função de crença

Wagner Teixeira da Silva; Ruy Luiz Milidiú

doi:10.18225/ci.inf.v20i2.351

Autores/as

Wagner Teixeira da Silva
Ruy Luiz Milidiú

DOI:

https://doi.org/10.18225/ci.inf.v20i2.351

Palabras clave:

Indexação automática. Ordenação de documentos. Recuperação da informação. Modelo de recuperação. Teoria de função de crença.Modelo com função de crença. Modelo baseado em frequência. Relevância de documentos.

Resumen

Um modelo usando funções de crença para indexar e recuperar documentos á proposto. Tal modelo é baseado em um vocabulário controlado, semelhante a um tesauro, e na frequência dos termos em cada documento. Cada descritor nesse vocabulário é um termo escolhido entre seus sinônimos. Um descritor pode ter um subconjunto de descritores mais gerais, um subconjunto de descritores mais específicos e um subconjunto de descritores relacionados. Assim, descritores não são mutuamente exclusivos e modelos probabilísticos convencionais não são adequados. Contudo, uma função de crença pode ser definida sobre um subconjunto dos descritores atômicos. Taís descritores são aqueles sem termos mais específicos (denotados por Ω). Subconjuntos de Ω podem ser vistos corno temos mais gerais, ou como termos relacionados. Desde modo, uma função de crença sobre Ω pode estimar o conteúdo semântico de um documento. Uma consulta ponderada (à base de documentos) pode ser vista como outra função de crença. Desde que ambas as funções são definidas sobre Ω, é possível computar o grau de condordância ente elas. Equivalentemente, é possível determinar o grau de concordância entre a consulta e os documentos e ordená-los segundo esse valor.

Palavras-chave

Indexação automática. Ordenação de documentos. Recuperação da informação. Modelo de recuperação. Teoria de função de crença.Modelo com função de crença. Modelo baseado em frequência. Relevância de documentos.

Information indexing and retrieval with a belief function model

Abstract

A belief function model for automatic indexing and ranking of documents with respect to a given user query is proposed here. The model is based on a controlled vocabulary, like a thesaurus, and on term frequency in each document. Each descriptor in this volcabulary is a term among its synonyms chosen to be the index term. A descriptor can have a subset of broader descriptors, a subset of narrower descritors, and a subset of related descritors. Thus descriptors are not mutually exclusive and naive probabilistic models are not adequate. However, a belief function can still be definied over a subset of atomic descriptors. These atomic descriptors are those without narrower terms (denoted Ω). Subsets of Ω can be viewed as broader terms, or as related terms. Hence, the belief function over Ω can estimate the semantic content of a document A weighted user query can bem seen as another belief function too. Since both functions are definied over Ω, we can compute the conflict between them. The inverse of this computed conflict is a measure of agreement between the document and the user query. Here we propose that the set of documents be ranked by their agreement with the given user query.

Keywords

Automatic indexing; Ranking of documents.Information retrieval.Retrieval model.Belief function theory.Belief function model. Frequency based model. Relevance of documents.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

Wagner Teixeira da Silva

Doutor em Informática: Ciência da Computação pela Pontifícia Universidade Católica do Rio de Ja- neiro (PUC-Rio), 1991. Professor do Departa- mento de Ciência da Computação da Universidade de Brasília
Ruy Luiz Milidiú

Doutor em Pesquisa Operacional pela the Univer- sity of Califórnia, Berkeley, 1985. Professor do De- partamento de Informática da Pontifícia Universi- dade Católica do Rio de Janeiro (PUC-Rio)