Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes
DOI:
https://doi.org/10.18225/ci.inf.v48i3.4922Palavras-chave:
Plataforma Lattes. Processamento de Linguagem Natural. Similaridade Semântica.Resumo
Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico), são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicaçõesDownloads
Referências
Cassiano, K. K., e Cordeiro, D. F. 2018. Representação Semântica Vetorial para Análise de Similaridade de Documentos Textuais. In: Escola Regional de Informática (ERI-GO), VI., Goiânia, 2018, p. 11-24.
Costa, A. C. e Silva Júnior, C. G. 2012. Similaridade entre Documentos de Especificação de Requisitos de Software utilizando o Modelo Vetorial de Recuperação da Informação. In: CONNEPI, V., Maceió, 2010.
Devlin, J., Chang, M., Lee, Kenton., and Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding.
Fonseca, E., Borges dos Santos, L., Criscuolo, M. e Aluísio, S. 2016. Visão Geral da Avaliação de Similaridade Semântica e Inferência Textual. Linguamática. 8, 2 (Dez. 2016), 3-13.
Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR, abs/1301.3781
Rumelhart, D. E., Hinton, G. E., and Williams, R. J. 1986. Learning representations by back propagating errors. Nature, 323:533–536.
Silva, L. A., Peres, S. M., and Boscarioli, C. (2016). Introdução à Mineração de Dados: com aplicações em R. Elsevier, Rio de Janeiro.
Wolfram, D. Bibliometrics Research in the Era of Big Data: Challenges and Oportunities. In: Bibliometrics and scientometrics in Brazil: scientific research asessment infrastructure in the era of Big Data, São Paulo: ECA/USP, p. 98, 2017.
Downloads
Publicado
Edição
Seção
Licença
- A publicação se reserva o direito de efetuar, nos originais, alterações de ordem normativa, ortográfica e gramatical, com vistas a manter o padrão culto da língua, respeitando, porém, o estilo dos autores;
- As provas finais não serão enviadas aos autores;
- Os autores mantém os direitos totais sobre seus trabalhos publicados na revista Ciência da Informação, ficando sua reimpressão total ou parcial, depósito ou republicação sujeita à indicação de primeira publicação na revista, por meio da Licença Pública 4.0 Internacional Atribuição-CompartilharIgual
- Deve ser consignada a fonte de publicação original;
- As opiniões emitidas pelos autores dos artigos são de sua exclusiva responsabilidade;
- Cada autor receberá dois exemplares da revista, caso esteja disponível no formato impresso.