@article{Dyck_de Aquino Silva_Lima Dutra_Medeiros de Araújo_2020, title={Grau de pertencimento como insumo para classificação automática de textos: uma abordagem sintática}, volume={49}, url={https://revista.ibict.br/ciinf/article/view/5445}, DOI={10.18225/ci.inf.v49i3.5445}, abstractNote={<p>Agrupar documentos em categorias é uma das soluções adotadas para agilizar o processo de recuperação de informação, cada vez mais relevante devido à grande de oferta de informação existente nos dias atuais. A localização manual de documentos de determinada temática, disponíveis em repositórios digitais, passa pela leitura de título, resumo e palavras-chave, além de posterior avaliação mais detalhada com o intuito de se identificar se a publicação pertence ao eixo temático desejado. Considerando o número de publicações existentes num repositório digital, a localização manual de todos os textos desejados de uma determinada temática pode ser trabalhosa e demorada. Esta pesquisa propõe uma técnica para classificação automática de textos que se baseia em questões sintáticas, ou seja, empreende uma comparação de n-gramas, que são combinações de <em>n-uplas</em> de palavras identificadas ao longo do texto. Realizou-se uma pesquisa aplicada, de cunho exploratório, que aplicou um tipo de aprendizagem supervisionada, baseada fundamentalmente no modelo de representação dos documentos chamado saco de palavras (<em>bag-of-words</em> - BoW). Seu objetivo-macro foi o de classificar textos de maneira geral, de acordo com categorias pré-definidas, por meio da geração e comparação de graus de pertencimento entre os textos, como um dos critérios-chave. Os resultados destas comparações, a partir da utilização de n-grama = 3, demonstram que, na utilização de classificações por n-gramas, quanto maior o número de gramas, e com a retirada das <em>stop words</em>, obtém-se um grau de pertencimento reduzido, demonstrando um rigor maior para identificar a combinação (<em>match</em>) durante a classificação. Para termos maior confiança nos resultados, é necessário um <em>corpus</em> de treinamento maior, para ampliar o número de palavras que caracterizem as categorias pré-definidas, a serem utilizadas na classificação dos textos.</p>}, number={3}, journal={Ciência da Informação}, author={Dyck, André Fabiano and de Aquino Silva, Rogério and Lima Dutra, Moisés and Medeiros de Araújo, Gustavo}, year={2020}, month={nov.} }