Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos

Autores

  • Fabiane dos Reis Braga Comissão Nacional de Energia Nuclear - CNEN

DOI:

https://doi.org/10.18225/ci.inf.v45i3.4056

Palavras-chave:

Gestão do conhecimento, Agrupamento de documentos, Agrupamento por conjunto de itens frequentes

Resumo

Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.

Downloads

Não há dados estatísticos.

Biografia do autor

Fabiane dos Reis Braga, Comissão Nacional de Energia Nuclear - CNEN

Chefe do Centro de Informações Nucleares da Comissão Nacional de Energia Nuclear (CNEN), Doutorado em Sistemas Computacionais de Alto Desempenho pela COPPE/UFRJ.

Downloads

Publicado

23/02/2018

Como citar

Braga, F. dos R. (2018). Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos. Ciência Da Informação, 45(3). https://doi.org/10.18225/ci.inf.v45i3.4056

Edição

Seção

Tecnologia, inovação e infraestrutura de informação