Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes

Felipe de Paula Oliveira; Thiago Magela Rodrigues Dias; Adilson Luiz Pinto

doi:10.18225/ci.inf.v48i3.4922

Autores

Felipe de Paula Oliveira Programa de Pós-Graduação em Modelagem Matemática e Computacional – CEFET/MG Av. Amazonas 7675 – Nova Gameleira – Belo Horizonte – MG – Brasil - CEP: 30510-000
Thiago Magela Rodrigues Dias Programa de Pós-Graduação em Modelagem Matemática e Computacional – CEFET/MG Av. Amazonas 7675 – Nova Gameleira – Belo Horizonte – MG – Brasil - CEP: 30510-000
Adilson Luiz Pinto Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Santa Catarina – UFSC Campus Prof. João David Ferreira Lima - Trindade - Florianópolis - Santa Catarina - Brasil - CEP 88.040-900

DOI:

https://doi.org/10.18225/ci.inf.v48i3.4922

Palavras-chave:

Plataforma Lattes. Processamento de Linguagem Natural. Similaridade Semântica.

Resumo

Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico), são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicações

Downloads

Não há dados estatísticos.

Biografia do autor

Felipe de Paula Oliveira, Programa de Pós-Graduação em Modelagem Matemática e Computacional – CEFET/MG Av. Amazonas 7675 – Nova Gameleira – Belo Horizonte – MG – Brasil - CEP: 30510-000

* Master Student of Mathematics and Computer Modeling at CEFET-MG.
* Information Security Specialist
* Bachelor’s Degree in Computer Engineering

Referências

Cassiano, K. K., e Cordeiro, D. F. 2018. Representação Semântica Vetorial para Análise de Similaridade de Documentos Textuais. In: Escola Regional de Informática (ERI-GO), VI., Goiânia, 2018, p. 11-24.

Costa, A. C. e Silva Júnior, C. G. 2012. Similaridade entre Documentos de Especificação de Requisitos de Software utilizando o Modelo Vetorial de Recuperação da Informação. In: CONNEPI, V., Maceió, 2010.

Devlin, J., Chang, M., Lee, Kenton., and Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding.

Fonseca, E., Borges dos Santos, L., Criscuolo, M. e Aluísio, S. 2016. Visão Geral da Avaliação de Similaridade Semântica e Inferência Textual. Linguamática. 8, 2 (Dez. 2016), 3-13.

Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR, abs/1301.3781

Rumelhart, D. E., Hinton, G. E., and Williams, R. J. 1986. Learning representations by back propagating errors. Nature, 323:533–536.

Silva, L. A., Peres, S. M., and Boscarioli, C. (2016). Introdução à Mineração de Dados: com aplicações em R. Elsevier, Rio de Janeiro.

Wolfram, D. Bibliometrics Research in the Era of Big Data: Challenges and Oportunities. In: Bibliometrics and scientometrics in Brazil: scientific research asessment infrastructure in the era of Big Data, São Paulo: ECA/USP, p. 98, 2017.