Grau de pertencimento como insumo para classificação automática de textos: uma abordagem sintática
DOI:
https://doi.org/10.18225/ci.inf.v49i3.5445Palavras-chave:
Grau de Pertencimento. Classificação textual. Bag-of-Words. N-Gramas. Ciência da InformaçãoResumo
Agrupar documentos em categorias é uma das soluções adotadas para agilizar o processo de recuperação de informação, cada vez mais relevante devido à grande de oferta de informação existente nos dias atuais. A localização manual de documentos de determinada temática, disponíveis em repositórios digitais, passa pela leitura de título, resumo e palavras-chave, além de posterior avaliação mais detalhada com o intuito de se identificar se a publicação pertence ao eixo temático desejado. Considerando o número de publicações existentes num repositório digital, a localização manual de todos os textos desejados de uma determinada temática pode ser trabalhosa e demorada. Esta pesquisa propõe uma técnica para classificação automática de textos que se baseia em questões sintáticas, ou seja, empreende uma comparação de n-gramas, que são combinações de n-uplas de palavras identificadas ao longo do texto. Realizou-se uma pesquisa aplicada, de cunho exploratório, que aplicou um tipo de aprendizagem supervisionada, baseada fundamentalmente no modelo de representação dos documentos chamado saco de palavras (bag-of-words - BoW). Seu objetivo-macro foi o de classificar textos de maneira geral, de acordo com categorias pré-definidas, por meio da geração e comparação de graus de pertencimento entre os textos, como um dos critérios-chave. Os resultados destas comparações, a partir da utilização de n-grama = 3, demonstram que, na utilização de classificações por n-gramas, quanto maior o número de gramas, e com a retirada das stop words, obtém-se um grau de pertencimento reduzido, demonstrando um rigor maior para identificar a combinação (match) durante a classificação. Para termos maior confiança nos resultados, é necessário um corpus de treinamento maior, para ampliar o número de palavras que caracterizem as categorias pré-definidas, a serem utilizadas na classificação dos textos.
Downloads
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2020 André Fabiano Dyck
Este trabalho está licenciado sob uma licença Creative Commons Attribution-ShareAlike 4.0 International License.
- A publicação se reserva o direito de efetuar, nos originais, alterações de ordem normativa, ortográfica e gramatical, com vistas a manter o padrão culto da língua, respeitando, porém, o estilo dos autores;
- As provas finais não serão enviadas aos autores;
- Os autores mantém os direitos totais sobre seus trabalhos publicados na revista Ciência da Informação, ficando sua reimpressão total ou parcial, depósito ou republicação sujeita à indicação de primeira publicação na revista, por meio da Licença Pública 4.0 Internacional Atribuição-CompartilharIgual
- Deve ser consignada a fonte de publicação original;
- As opiniões emitidas pelos autores dos artigos são de sua exclusiva responsabilidade;
- Cada autor receberá dois exemplares da revista, caso esteja disponível no formato impresso.