GOOGLE DATASET SEARCH: Visão geral e perspectivas para indexação e disponibilização de conjuntos de dados científicos abertos
DOI:
https://doi.org/10.18225/ci.inf.v49i3.5505Palavras-chave:
conjuntos de dados, interoperabilidade, acesso aberto, padrões de metadados, Google dataset SearchResumo
Com o intuito de colaborar com a produção científica na área de ciência de dados, especificamente em ferramentas de armazenamento e recuperação de conjuntos de dados pela internet, este artigo tem como propósito obter uma visão geral do funcionamento, padrões e perspectivas sobre a ferramenta Google Dataset Search –lançada em 2018 com a proposta de identificar, indexar e disponibilizar pela internet datasets (conjuntos massivos de dados) - instrumentos salutares para a comunidade científica. A metodologia utilizada foi descritiva, de caráter exploratório e bibliográfica sobre o tema. Foi realizado levantamento bibliográfico sobre a plataforma, identificando funcionamento interno, padrões, diretrizes, formatos e instituições de padronização que norteiam a plataforma, além de estatísticas atuais de dados indexados. Em seguida, foram executados testes práticos de utilização, usabilidade e funcionamento da ferramenta, conforme documentação disponível. Os resultados obtidos mostraram uma plataforma promissora, com índice satisfatório de usabilidade, alinhada com padrões internacionais de interoperabilidade de dados e com volumes consideráveis de datasets já disponíveis, em sua grande maioria no idioma inglês. Observou-se ainda, após os testes, que já existem diversos repositórios brasileiros de dados indexados pelo Google Dataset Search. Entretanto, alguns deles, mesmo adotando iguais padrões de metadados desta ferramenta, ainda não estão disponíveis. A conclusão é que se trata de um sistema criado pela Google, com alta capacidade de rastreamento, identificação, indexação, interoperação e disponibilização de conjuntos de dados disponíveis na internet utilizando padrões internacionais e, por isso, apresenta expressivo potencial. Este trabalho contribui para a grande área que está inserido reduzindo a escassez de publicações científicas acerca de ferramentas de disponibilização de conjuntos de dados, especificamente sobre o funcionamento, protocolos, mecanismos e interface da ferramenta em questão.
Downloads
Referências
BRASIL. Portal Brasileiro de Dados Abertos. 2019. Disponível em: <http://dados.gov.br>. Acesso em: 13 set. 2019.
CANINO, Adrienne. Deconstructing Google Dataset Search. Public Services Quarterly, 15:3, 248-255, DOI: 10.1080 / 15228959.2019.1621793. Disponível em: <https://www.tandfonline.com/doi/full/10.1080/15228959.2019.1621793>. Acesso em: 13 set. 2019.
FEBAB. 2017. Disponível em: <https://portal.febab.org.br/anais/article/view/1787>. Acesso em: 13 set. 2019.
GAVRON, E. M.; CANTO, F. L. Análise da utilização dos periódicos de acesso aberto de uma base de dados assinada pela Biblioteca Universitária da UFSC. In: Anais do Congresso Brasileiro de Biblioteconomia, Documentação e Ciência da Informação.
GERHARDT E SILVEIRA (org.) Métodos de pesquisa / [organizado por] Tatiana Engel Gerhardt e Denise Tolfo Silveira. Porto Alegre: Editora da UFRGS, 2009. Disponível em: < http://www.ufrgs.br/cursopgdr/downloadsSerie/derad005.pdf>. Acesso em: 12 set. 2019.
GOBEN, Abigail; SANDUSKY, Robert J.. Open data repositories: Current risks and opportunities. College & ReSearch Libraries News, [S.l.], v. 81, n. 2, p. 62, feb. 2020. ISSN 2150-6698. Disponível em: <https://crln.acrl.org/index.php/crlnews/article/view/24273/32092>. Acesso em: 29 abr. 2020.
GOOGLE. Conjuntos de diretrizes e orientações sobre o Google Dataset Search. 2019. Disponível em: <https://developers.Google.com/Search/docs/data-types/dataset>. Acesso em: 13 set. 2019.
GOOGLE. Rastreamento e indexação: manual de orientações técnicas para criação de metadados para rastreio de páginas web. 2020. Disponível em: <https://developers.Google.com/Search/reference/robots_meta_tag>. Acesso em: 20 abr. 2020.
HALEVY, A., Korn, F., Noy, N. F., Olston, C., Polyzotis, N., Roy, S., and Whang, S. E. Goods: Organizing Google’s datasets. Google, 2016. Disponível em: < https://static.googleusercontent.com/media/research.google.com/pt-br//pubs/archive/45390.pdf>. Acesso em: 12 set. 2019.
IDC – International Data Corporation. Smartphone Market Share - updated: 22 Jun 2020. Disponível em: <https://www.idc.com/promo/smartphone-market-share/os>. Acesso em: 02 set. 2020.
MYERS, Glenford J. The art of software testing. 3. ed. Word Association, New Jersey, EUA. 2012. Disponível em: <https://books.Google.com.br/books?hl=pt-BR&lr=&id=GjyEFPkMCwcC>. Acesso em: 26 abr. 2020.
NOY, Natasha. BURGESS, Matthew. BRICKLEY, Dan. Google Dataset Search: Building a Search engine for datasets in an open Web ecosystem. WebConf’2019, May 2019, San Francisco, CA USA. Disponível em: <https://doi.org/10.1145/3308558.3313685>. Acesso em: 14 set. 2019.
NOY, Natasha. Burgess, Matthew. Building Google Dataset Search and Fostering an Open Data Ecosystem. Google AI Blog. 2018. Disponível em: <https://ai.Googleblog.com/2018/09/building-Google-dataset-Search-and.html>. Acesso em: 10 set. 2019.
NOY, Natasha. Discovering millions of datasets on the web. Google BLOG. 2020. Disponível em: <https://www.blog.Google/products/Search/discovering-millions-datasets-web/>. Acesso em: 20 abr. 2020.
ROSA, Juan Miguel; VERAS, Manoel. Avaliação heurística de usabilidade em jornais online: estudo de caso em dois sites. Perspect. ciênc. inf., Belo Horizonte, v. 18, n. 1, p. 138-157, Mar. 2013 . Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413-99362013000100010&lng=en&nrm=iso>. Acesso em: 28 abr. 2020.
W3C - World Wide Web Consortium. Data Catalog Vocabulary (DCAT). 2014. Disponível em: < https://www.w3.org/TR/vocab-dcat/>. Acesso em: 09 set. 2019.
W3C - World Wide Web Consortium. Current Members. Disponível em: <https://www.w3.org/Consortium/Member/List>. Acesso em: 09 set. 2019.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2020 Eduardo Diniz Amaral
Este trabalho está licenciado sob uma licença Creative Commons Attribution-ShareAlike 4.0 International License.
- A publicação se reserva o direito de efetuar, nos originais, alterações de ordem normativa, ortográfica e gramatical, com vistas a manter o padrão culto da língua, respeitando, porém, o estilo dos autores;
- As provas finais não serão enviadas aos autores;
- Os autores mantém os direitos totais sobre seus trabalhos publicados na revista Ciência da Informação, ficando sua reimpressão total ou parcial, depósito ou republicação sujeita à indicação de primeira publicação na revista, por meio da Licença Pública 4.0 Internacional Atribuição-CompartilharIgual
- Deve ser consignada a fonte de publicação original;
- As opiniões emitidas pelos autores dos artigos são de sua exclusiva responsabilidade;
- Cada autor receberá dois exemplares da revista, caso esteja disponível no formato impresso.