Grau de pertencimento como insumo para classificação automática de textos: uma abordagem sintática

Autores/as

  • André Fabiano Dyck
  • Rogério de Aquino Silva
  • Moisés Lima Dutra
  • Gustavo Medeiros de Araújo

DOI:

https://doi.org/10.18225/ci.inf.v49i3.5445

Palabras clave:

Grau de Pertencimento. Classificação textual. Bag-of-Words. N-Gramas. Ciência da Informação

Resumen

La agrupación de documentos en categorías es una de las soluciones adoptadas para agilizar el proceso de recuperación de información, que es cada vez más relevante debido a la gran cantidad de información disponible en la actualidad. La localización manual de documentos de un tema específico, disponibles en repositorios digitales, implica la lectura del título, resumen y palabras clave, además de una evaluación más detallada con el fin de identificar si la publicación pertenece al eje temático deseado. Teniendo en cuenta la cantidad de publicaciones en un repositorio digital, ubicar manualmente todos los textos deseados sobre un tema determinado puede resultar laborioso y llevar mucho tiempo. Esta investigación propone una arquitectura de clasificación automática de textos que se basa en preguntas sintácticas, es decir, realiza una comparación de n-gramos, que son combinaciones de n-pares de palabras que se identifican a lo largo del texto. Se realizó una investigación aplicada de carácter exploratorio, que aplicó un tipo de aprendizaje supervisado, basado fundamentalmente en el modelo de representación de documentos denominado bolsa de palabras (bag-of-words - BoW). Su macro objetivo era clasificar los textos en general, según categorías predefinidas, generando y comparando grados de pertenencia entre textos, como uno de los criterios clave. Los resultados de estas comparaciones, utilizando n-gramo = 3, demuestran que en el uso de clasificaciones por n-gramos, a mayor número de gramos, y con la eliminación de las palabras vacías, obtenemos un grado de pertenencia reducido, demostrando mayor rigor en la identificación del partido durante la clasificación. Para tener una mayor confianza en los resultados, es necesario un corpus de formación más amplio para ampliar el número de palabras que caracterizan las categorías predefinidas, para ser utilizadas en la clasificación de los textos.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

  • André Fabiano Dyck

    Doutorando em Ciência da Informação pela Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC - Brasil. Mestre em Ciências da Computação pela Universidade Federal de Santa Catarina (UFSC ) - Brasil. Analista de Tecnologia da Informação da Universidade Federal de Santa Catarina (UFSC) - Brasil.

  • Rogério de Aquino Silva

    Mestrando em Ciência da Informação pela Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC - Brasil. Especialização em Business Intelligence pela Instituto Brasileiro de Tecnologia Avançada (IBTA) - Brasil. Cientista de dados do Instituto de Previdência do Estado de Santa Catarina (IPREV) - Florianópolis, SC - Brasil.

  • Moisés Lima Dutra

    Doutor em Ciências da Computação pela Université Claude Bernarde Lyon 1 (LYON I) - França, com período co-tutela em Universidade Nova de Lisboa (UNL) – Portugal. Professor da Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC - Brasil.

  • Gustavo Medeiros de Araújo

    Doutor em Engenharia de Automação e Sistemas pela Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC – Brasil, com período sanduíche em Otto-von-Guericke-Universität Magdeburg – Alemanha. Professor da Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC - Brasil.

Publicado

25/11/2020