Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes

Felipe de Paula Oliveira, Thiago Magela Rodrigues Dias, Adilson Luiz Pinto

Resumo


Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico  e Tecnológico),  são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicações

Palavras-chave


Plataforma Lattes. Processamento de Linguagem Natural. Similaridade Semântica.

Texto completo:

PDF

Referências


Cassiano, K. K., e Cordeiro, D. F. 2018. Representação Semântica Vetorial para Análise de Similaridade de Documentos Textuais. In: Escola Regional de Informática (ERI-GO), VI., Goiânia, 2018, p. 11-24.

Costa, A. C. e Silva Júnior, C. G. 2012. Similaridade entre Documentos de Especificação de Requisitos de Software utilizando o Modelo Vetorial de Recuperação da Informação. In: CONNEPI, V., Maceió, 2010.

Devlin, J., Chang, M., Lee, Kenton., and Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding.

Fonseca, E., Borges dos Santos, L., Criscuolo, M. e Aluísio, S. 2016. Visão Geral da Avaliação de Similaridade Semântica e Inferência Textual. Linguamática. 8, 2 (Dez. 2016), 3-13.

Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR, abs/1301.3781

Rumelhart, D. E., Hinton, G. E., and Williams, R. J. 1986. Learning representations by back propagating errors. Nature, 323:533–536.

Silva, L. A., Peres, S. M., and Boscarioli, C. (2016). Introdução à Mineração de Dados: com aplicações em R. Elsevier, Rio de Janeiro.

Wolfram, D. Bibliometrics Research in the Era of Big Data: Challenges and Oportunities. In: Bibliometrics and scientometrics in Brazil: scientific research asessment infrastructure in the era of Big Data, São Paulo: ECA/USP, p. 98, 2017.


Apontamentos

  • Não há apontamentos.


Direitos autorais 2020 Felipe de Paula Oliveira, Thiago Magela Rodrigues Dias, Adilson Luiz Pinto

Licença Creative Commons
Esta obra está licenciada sob uma licença Creative Commons Atribuição - Compartilhar igual 4.0 Internacional.


Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)
SAUS - Setor de Autarquias Sul, Quadra 5, Lote 6, Bloco H
Seção de Editoração - sala 500
CEP 70070-912
Brasília-DF, Brasil

Licença Creative Commons
Todo o conteúdo publicado nesta revista está licenciado com uma Licença Creative Commons - Atribuição-CompartilhaIgual 4.0 Internacional.