CADWeb – Categorização automática de documentos digitais

Georgia Regina Rodrigues Gomes; Rubens de Oliveira Moraes Filho

doi:10.18225/ci.inf.v40i1.1325

Authors

Georgia Regina Rodrigues Gomes UCAM-Campos
Rubens de Oliveira Moraes Filho UCA-Campos

DOI:

https://doi.org/10.18225/ci.inf.v40i1.1325

Keywords:

Bibliotecas Digitais, Mineração de texto, Categorização, Documentos Digitais, Tecnoligia da Informação

Abstract

Com a evolução da tecnologia da informação e a disseminação de documentos digitais na Web, faz-se necessário criar meios que forneçam um mecanismo de organização de tais documentos, facilitando sua busca e recuperação. Em bibliotecas digitais ou repositórios de obras eletrônicas, por exemplo, existe a necessidade de uma ferramenta que possa classificar automaticamente os documentos, visto que o processo de classificação (categorização) é feito de forma manual. Esta ferramenta será de grande importância no apoio à catalogação. Este artigo apresenta o desenvolvimento de uma ferramenta que tem como objetivo principal classificar automaticamente documentos digitais em categorias preestabelecidas, nas quais cada documento pertencerá a uma ou mais categorias de acordo com seu conteúdo, tornando assim mais eficaz e rápida a classificação. Na elaboração da ferramenta foram utilizadas técnicas e algoritmos de mineração de textos, sendo definidas no estudo de caso algumas categorias e termos relacionados, tais como informática, direito e física, para validar a ferramenta.

Palavras-chave

Tecnologia da informação. Categorização. Biblioteca digital. Mineração de texto. Documentos digitais.

Automatic categorization of digital documents

Abstract

The evolution of information technology and dissemination of digital documents on the Web calls for a mechanism for the organization of such documents in order to facilitate the search and recall processes. In digital libraries or repositories of electronic works, for example, there is a need for tools that will automatically classify documents, since the classification process (categorizations) is done manually. Such a tool will represent an important resource and support for cataloging. This article presents the development of a tool whose chief objective is to categorize digital documents automatically, using preestablished categories, where each document will belong to one or more categories according to its content, thus making the classification of such documents more efficient and also quicker. Techniques and algorithms of text mining were used to develop and validate the tool; also, some categories were defined in the case study, as well as related terms such as: information technology, law and physics.

Keywords

Information technology. Categorization. Digital libraries. Text mining. Digital documents.

Downloads

Download data is not yet available.

Author Biographies

Georgia Regina Rodrigues Gomes, UCAM-Campos

Doutora em informática pela Pontifícia Universidade Católica do Rio de Janeiro. Professora adjunta da Universidade Cândido Mendes. Rio de Janeiro, RJ - Brasil E-mail: geogomes@ig.com.br
Rubens de Oliveira Moraes Filho, UCA-Campos

Aluno de ciência da computação da Universidade Candido Mendes, Rio de Janeiro, RJ - Brasil E-mail: rubens_olv@hotmail.com