Grau de pertencimento como insumo para classificação automática de textos: uma abordagem sintática
DOI:
https://doi.org/10.18225/ci.inf.v49i3.5445Palabras clave:
Grau de Pertencimento. Classificação textual. Bag-of-Words. N-Gramas. Ciência da InformaçãoResumen
La agrupación de documentos en categorías es una de las soluciones adoptadas para agilizar el proceso de recuperación de información, que es cada vez más relevante debido a la gran cantidad de información disponible en la actualidad. La localización manual de documentos de un tema específico, disponibles en repositorios digitales, implica la lectura del título, resumen y palabras clave, además de una evaluación más detallada con el fin de identificar si la publicación pertenece al eje temático deseado. Teniendo en cuenta la cantidad de publicaciones en un repositorio digital, ubicar manualmente todos los textos deseados sobre un tema determinado puede resultar laborioso y llevar mucho tiempo. Esta investigación propone una arquitectura de clasificación automática de textos que se basa en preguntas sintácticas, es decir, realiza una comparación de n-gramos, que son combinaciones de n-pares de palabras que se identifican a lo largo del texto. Se realizó una investigación aplicada de carácter exploratorio, que aplicó un tipo de aprendizaje supervisado, basado fundamentalmente en el modelo de representación de documentos denominado bolsa de palabras (bag-of-words - BoW). Su macro objetivo era clasificar los textos en general, según categorías predefinidas, generando y comparando grados de pertenencia entre textos, como uno de los criterios clave. Los resultados de estas comparaciones, utilizando n-gramo = 3, demuestran que en el uso de clasificaciones por n-gramos, a mayor número de gramos, y con la eliminación de las palabras vacías, obtenemos un grado de pertenencia reducido, demostrando mayor rigor en la identificación del partido durante la clasificación. Para tener una mayor confianza en los resultados, es necesario un corpus de formación más amplio para ampliar el número de palabras que caracterizan las categorías predefinidas, para ser utilizadas en la clasificación de los textos.
Descargas
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2020 André Fabiano Dyck
![Creative Commons License](http://i.creativecommons.org/l/by-sa/4.0/88x31.png)
Esta obra está bajo una licencia internacional Creative Commons Atribución-CompartirIgual 4.0.
- La publicación se reserva el direcho de realizar, en los originales, cambios de orden normativa, ortográfica y gramatical, para mantener la norma culta del idioma, respetando el estilo de los autores;
- Las pruebas finales no seran enviadas a los autores;
- Los trabajos publicados pasan a ser propriedad de la revista Ciência da Informação, siendo su reimpresión total o parcial, sujeta a autorización expresa de la dirección del IBICT;
- Debe ser consignada la fuente de publicação original;
- Són de exclusiva responsabilidad de los autores las opiniones emitidas en sus artículos;
- Cada autor recibirá dos ejemplares de la revista, caso esté disponible en el formato impreso.