GOOGLE DATASET SEARCH: Visão geral e perspectivas para indexação e disponibilização de conjuntos de dados científicos abertos

Autores

  • Adilson Luiz Pinto
  • Eduardo Diniz Amaral UNIMONTES/UFSC

DOI:

https://doi.org/10.18225/ci.inf.v49i3.5505

Palavras-chave:

conjuntos de dados, interoperabilidade, acesso aberto, padrões de metadados, Google dataset Search

Resumo

Com o intuito de colaborar com a produção científica na área de ciência de dados, especificamente em ferramentas de armazenamento e recuperação de conjuntos de dados pela internet, este artigo tem como propósito obter uma visão geral do funcionamento, padrões e perspectivas sobre a ferramenta Google Dataset Search –lançada em 2018 com a proposta de identificar, indexar e disponibilizar pela internet datasets (conjuntos massivos de dados) - instrumentos salutares para a comunidade científica. A metodologia utilizada foi descritiva, de caráter exploratório e bibliográfica sobre o tema. Foi realizado levantamento bibliográfico sobre a plataforma, identificando funcionamento interno, padrões, diretrizes, formatos e instituições de padronização que norteiam a plataforma, além de estatísticas atuais de dados indexados. Em seguida, foram executados testes práticos de utilização, usabilidade e funcionamento da ferramenta, conforme documentação disponível. Os resultados obtidos mostraram uma plataforma promissora, com índice satisfatório de usabilidade, alinhada com padrões internacionais de interoperabilidade de dados e com volumes consideráveis de datasets já disponíveis, em sua grande maioria no idioma inglês. Observou-se ainda, após os testes, que já existem diversos repositórios brasileiros de dados indexados pelo Google Dataset Search. Entretanto, alguns deles, mesmo adotando iguais padrões de metadados desta ferramenta, ainda não estão disponíveis. A conclusão é que se trata de um sistema criado pela Google, com alta capacidade de rastreamento, identificação, indexação, interoperação e disponibilização de conjuntos de dados disponíveis na internet utilizando padrões internacionais e, por isso, apresenta expressivo potencial. Este trabalho contribui para a grande área que está inserido reduzindo a escassez de publicações científicas acerca de ferramentas de disponibilização de conjuntos de dados, especificamente sobre o funcionamento, protocolos, mecanismos e interface da ferramenta em questão.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

  • Adilson Luiz Pinto

    Pós-Doutorado pelo Institut de Recherche en Sciences de l´Information et de la Communication (IRSIC) - França. Doutor em Documentação pela Universidad Carlos III de Madrid (UC3M) - Espanha. Professor da Universidade Federal de Santa Catarina (UFSC) - Florianópolis, SC - Brasil.

  • Eduardo Diniz Amaral, UNIMONTES/UFSC

    Doutorando em Ciência da Informação pela Universidade Federal de Santa Catarina (UFSC) – SC - Brasil. Mestre em Biotecnologia pela Universidade Estadual de Montes Claros (Unimontes) -  Montes Claros, MG - Brasil. Professor da Universidade Estadual de Montes Claros (Unimontes) - Montes Claros, MG - Brasil.

Referências

BENJELLOUN, Omar; CHEN, Shiyu; NOY, Natasha. Google Dataset Search by the Numbers. arXiv preprint arXiv:2006.06894, 2020. Disponível em: <https://arxiv.org/pdf/2006.06894.pdf>. Acesso em: 09 set. 2020.

BRASIL. Portal Brasileiro de Dados Abertos. 2019. Disponível em: <http://dados.gov.br>. Acesso em: 13 set. 2019.

CANINO, Adrienne. Deconstructing Google Dataset Search. Public Services Quarterly, 15:3, 248-255, DOI: 10.1080 / 15228959.2019.1621793. Disponível em: <https://www.tandfonline.com/doi/full/10.1080/15228959.2019.1621793>. Acesso em: 13 set. 2019.

FEBAB. 2017. Disponível em: <https://portal.febab.org.br/anais/article/view/1787>. Acesso em: 13 set. 2019.
GAVRON, E. M.; CANTO, F. L. Análise da utilização dos periódicos de acesso aberto de uma base de dados assinada pela Biblioteca Universitária da UFSC. In: Anais do Congresso Brasileiro de Biblioteconomia, Documentação e Ciência da Informação.

GERHARDT E SILVEIRA (org.) Métodos de pesquisa / [organizado por] Tatiana Engel Gerhardt e Denise Tolfo Silveira. Porto Alegre: Editora da UFRGS, 2009. Disponível em: < http://www.ufrgs.br/cursopgdr/downloadsSerie/derad005.pdf>. Acesso em: 12 set. 2019.

GOBEN, Abigail; SANDUSKY, Robert J.. Open data repositories: Current risks and opportunities. College & ReSearch Libraries News, [S.l.], v. 81, n. 2, p. 62, feb. 2020. ISSN 2150-6698. Disponível em: <https://crln.acrl.org/index.php/crlnews/article/view/24273/32092>. Acesso em: 29 abr. 2020.

GOOGLE. Conjuntos de diretrizes e orientações sobre o Google Dataset Search. 2019. Disponível em: <https://developers.Google.com/Search/docs/data-types/dataset>. Acesso em: 13 set. 2019.

GOOGLE. Rastreamento e indexação: manual de orientações técnicas para criação de metadados para rastreio de páginas web. 2020. Disponível em: <https://developers.Google.com/Search/reference/robots_meta_tag>. Acesso em: 20 abr. 2020.

HALEVY, A., Korn, F., Noy, N. F., Olston, C., Polyzotis, N., Roy, S., and Whang, S. E. Goods: Organizing Google’s datasets. Google, 2016. Disponível em: < https://static.googleusercontent.com/media/research.google.com/pt-br//pubs/archive/45390.pdf>. Acesso em: 12 set. 2019.

IDC – International Data Corporation. Smartphone Market Share - updated: 22 Jun 2020. Disponível em: <https://www.idc.com/promo/smartphone-market-share/os>. Acesso em: 02 set. 2020.

MYERS, Glenford J. The art of software testing. 3. ed. Word Association, New Jersey, EUA. 2012. Disponível em: <https://books.Google.com.br/books?hl=pt-BR&lr=&id=GjyEFPkMCwcC>. Acesso em: 26 abr. 2020.

NOY, Natasha. BURGESS, Matthew. BRICKLEY, Dan. Google Dataset Search: Building a Search engine for datasets in an open Web ecosystem. WebConf’2019, May 2019, San Francisco, CA USA. Disponível em: <https://doi.org/10.1145/3308558.3313685>. Acesso em: 14 set. 2019.

NOY, Natasha. Burgess, Matthew. Building Google Dataset Search and Fostering an Open Data Ecosystem. Google AI Blog. 2018. Disponível em: <https://ai.Googleblog.com/2018/09/building-Google-dataset-Search-and.html>. Acesso em: 10 set. 2019.

NOY, Natasha. Discovering millions of datasets on the web. Google BLOG. 2020. Disponível em: <https://www.blog.Google/products/Search/discovering-millions-datasets-web/>. Acesso em: 20 abr. 2020.

ROSA, Juan Miguel; VERAS, Manoel. Avaliação heurística de usabilidade em jornais online: estudo de caso em dois sites. Perspect. ciênc. inf., Belo Horizonte, v. 18, n. 1, p. 138-157, Mar. 2013 . Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413-99362013000100010&lng=en&nrm=iso>. Acesso em: 28 abr. 2020.

W3C - World Wide Web Consortium. Data Catalog Vocabulary (DCAT). 2014. Disponível em: < https://www.w3.org/TR/vocab-dcat/>. Acesso em: 09 set. 2019.

W3C - World Wide Web Consortium. Current Members. Disponível em: <https://www.w3.org/Consortium/Member/List>. Acesso em: 09 set. 2019.

Downloads

Publicado

25/11/2020

Artigos mais lidos pelo mesmo(s) autor(es)