Grau de pertencimento como insumo para classificação automática de textos: uma abordagem sintática

André Fabiano Dyck; Rogério  de Aquino Silva; Moisés  Lima Dutra; Gustavo  Medeiros de Araújo

doi:10.18225/ci.inf.v49i3.5445

Autores

André Fabiano Dyck
Rogério de Aquino Silva
Moisés Lima Dutra
Gustavo Medeiros de Araújo

DOI:

https://doi.org/10.18225/ci.inf.v49i3.5445

Palavras-chave:

Grau de Pertencimento. Classificação textual. Bag-of-Words. N-Gramas. Ciência da Informação

Resumo

Agrupar documentos em categorias é uma das soluções adotadas para agilizar o processo de recuperação de informação, cada vez mais relevante devido à grande de oferta de informação existente nos dias atuais. A localização manual de documentos de determinada temática, disponíveis em repositórios digitais, passa pela leitura de título, resumo e palavras-chave, além de posterior avaliação mais detalhada com o intuito de se identificar se a publicação pertence ao eixo temático desejado. Considerando o número de publicações existentes num repositório digital, a localização manual de todos os textos desejados de uma determinada temática pode ser trabalhosa e demorada. Esta pesquisa propõe uma técnica para classificação automática de textos que se baseia em questões sintáticas, ou seja, empreende uma comparação de n-gramas, que são combinações de n-uplas de palavras identificadas ao longo do texto. Realizou-se uma pesquisa aplicada, de cunho exploratório, que aplicou um tipo de aprendizagem supervisionada, baseada fundamentalmente no modelo de representação dos documentos chamado saco de palavras (bag-of-words - BoW). Seu objetivo-macro foi o de classificar textos de maneira geral, de acordo com categorias pré-definidas, por meio da geração e comparação de graus de pertencimento entre os textos, como um dos critérios-chave. Os resultados destas comparações, a partir da utilização de n-grama = 3, demonstram que, na utilização de classificações por n-gramas, quanto maior o número de gramas, e com a retirada das stop words, obtém-se um grau de pertencimento reduzido, demonstrando um rigor maior para identificar a combinação (match) durante a classificação. Para termos maior confiança nos resultados, é necessário um corpus de treinamento maior, para ampliar o número de palavras que caracterizem as categorias pré-definidas, a serem utilizadas na classificação dos textos.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

André Fabiano Dyck

Doutorando em Ciência da Informação pela Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC - Brasil. Mestre em Ciências da Computação pela Universidade Federal de Santa Catarina (UFSC ) - Brasil. Analista de Tecnologia da Informação da Universidade Federal de Santa Catarina (UFSC) - Brasil.
Rogério de Aquino Silva

Mestrando em Ciência da Informação pela Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC - Brasil. Especialização em Business Intelligence pela Instituto Brasileiro de Tecnologia Avançada (IBTA) - Brasil. Cientista de dados do Instituto de Previdência do Estado de Santa Catarina (IPREV) - Florianópolis, SC - Brasil.
Moisés Lima Dutra

Doutor em Ciências da Computação pela Université Claude Bernarde Lyon 1 (LYON I) - França, com período co-tutela em Universidade Nova de Lisboa (UNL) – Portugal. Professor da Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC - Brasil.
Gustavo Medeiros de Araújo

Doutor em Engenharia de Automação e Sistemas pela Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC – Brasil, com período sanduíche em Otto-von-Guericke-Universität Magdeburg – Alemanha. Professor da Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC - Brasil.