Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes
DOI:
https://doi.org/10.18225/ci.inf.v48i3.4922Palabras clave:
Plataforma Lattes. Processamento de Linguagem Natural. Similaridade Semântica.Resumen
Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico), são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicaçõesDescargas
Referencias
Cassiano, K. K., e Cordeiro, D. F. 2018. Representação Semântica Vetorial para Análise de Similaridade de Documentos Textuais. In: Escola Regional de Informática (ERI-GO), VI., Goiânia, 2018, p. 11-24.
Costa, A. C. e Silva Júnior, C. G. 2012. Similaridade entre Documentos de Especificação de Requisitos de Software utilizando o Modelo Vetorial de Recuperação da Informação. In: CONNEPI, V., Maceió, 2010.
Devlin, J., Chang, M., Lee, Kenton., and Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding.
Fonseca, E., Borges dos Santos, L., Criscuolo, M. e Aluísio, S. 2016. Visão Geral da Avaliação de Similaridade Semântica e Inferência Textual. Linguamática. 8, 2 (Dez. 2016), 3-13.
Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR, abs/1301.3781
Rumelhart, D. E., Hinton, G. E., and Williams, R. J. 1986. Learning representations by back propagating errors. Nature, 323:533–536.
Silva, L. A., Peres, S. M., and Boscarioli, C. (2016). Introdução à Mineração de Dados: com aplicações em R. Elsevier, Rio de Janeiro.
Wolfram, D. Bibliometrics Research in the Era of Big Data: Challenges and Oportunities. In: Bibliometrics and scientometrics in Brazil: scientific research asessment infrastructure in the era of Big Data, São Paulo: ECA/USP, p. 98, 2017.
Descargas
Publicado
Número
Sección
Licencia
- La publicación se reserva el direcho de realizar, en los originales, cambios de orden normativa, ortográfica y gramatical, para mantener la norma culta del idioma, respetando el estilo de los autores;
- Las pruebas finales no seran enviadas a los autores;
- Los trabajos publicados pasan a ser propriedad de la revista Ciência da Informação, siendo su reimpresión total o parcial, sujeta a autorización expresa de la dirección del IBICT;
- Debe ser consignada la fuente de publicação original;
- Són de exclusiva responsabilidad de los autores las opiniones emitidas en sus artículos;
- Cada autor recibirá dos ejemplares de la revista, caso esté disponible en el formato impreso.