GOOGLE DATASET SEARCH: descripción general y perspectivas para indexar y poner a disposición conjuntos de datos científicos abiertos
DOI:
https://doi.org/10.18225/ci.inf.v49i3.5505Palabras clave:
conjuntos de dados, interoperabilidade, acesso aberto, padrões de metadados, Google dataset SearchResumen
Para colaborar con la producción científica en el campo de la ciencia de datos, específicamente en herramientas para el almacenamiento y recuperación de conjuntos de datos a través de Internet, este artículo tiene como objetivo obtener una descripción general del funcionamiento, los estándares y las perspectivas de la herramienta Google Dataset Search, lanzada en 2018 con la propuesta de identificar, indexar y poner a disposición conjuntos de datos de Internet (conjuntos masivos de datos), instrumentos saludables para la comunidad científica. La metodología utilizada fue descriptiva, exploratoria y bibliográfica sobre el tema. Se realizó un relevamiento bibliográfico, identificando funcionamiento interno, estándares, lineamientos, formatos e instituciones de estandarización que orientan la plataforma, además de estadísticas actuales de datos indexados. A continuación, se realizaron pruebas prácticas de uso, usabilidad y funcionamiento de la herramienta, según documentación disponible. Los resultados obtenidos mostraron una plataforma prometedora, con un índice de usabilidad satisfactorio, alineada con los estándares internacionales de interoperabilidad de datos y con volúmenes considerables de conjuntos de datos ya disponibles, en su mayoría en idioma inglés. También se observó, después de las pruebas, que ya existen varios repositorios de datos brasileños indexados por Google Dataset Search. Sin embargo, algunos de ellos, incluso adoptando los mismos estándares de metadatos que esta herramienta, aún no están disponibles. La conclusión es que se trata de un sistema creado por Google, con una alta capacidad de seguimiento, identificación, indexación, interoperación y puesta a disposición de conjuntos de datos en Internet utilizando estándares internacionales y, por tanto, tiene un potencial significativo. Este trabajo contribuye a la gran área que se inserta, reduciendo la escasez de publicaciones científicas sobre herramientas para la puesta a disposición de conjuntos de datos, específicamente sobre el funcionamiento, protocolos, mecanismos e interfaz de la herramienta en cuestión.
Descargas
Referencias
BRASIL. Portal Brasileiro de Dados Abertos. 2019. Disponível em: <http://dados.gov.br>. Acesso em: 13 set. 2019.
CANINO, Adrienne. Deconstructing Google Dataset Search. Public Services Quarterly, 15:3, 248-255, DOI: 10.1080 / 15228959.2019.1621793. Disponível em: <https://www.tandfonline.com/doi/full/10.1080/15228959.2019.1621793>. Acesso em: 13 set. 2019.
FEBAB. 2017. Disponível em: <https://portal.febab.org.br/anais/article/view/1787>. Acesso em: 13 set. 2019.
GAVRON, E. M.; CANTO, F. L. Análise da utilização dos periódicos de acesso aberto de uma base de dados assinada pela Biblioteca Universitária da UFSC. In: Anais do Congresso Brasileiro de Biblioteconomia, Documentação e Ciência da Informação.
GERHARDT E SILVEIRA (org.) Métodos de pesquisa / [organizado por] Tatiana Engel Gerhardt e Denise Tolfo Silveira. Porto Alegre: Editora da UFRGS, 2009. Disponível em: < http://www.ufrgs.br/cursopgdr/downloadsSerie/derad005.pdf>. Acesso em: 12 set. 2019.
GOBEN, Abigail; SANDUSKY, Robert J.. Open data repositories: Current risks and opportunities. College & ReSearch Libraries News, [S.l.], v. 81, n. 2, p. 62, feb. 2020. ISSN 2150-6698. Disponível em: <https://crln.acrl.org/index.php/crlnews/article/view/24273/32092>. Acesso em: 29 abr. 2020.
GOOGLE. Conjuntos de diretrizes e orientações sobre o Google Dataset Search. 2019. Disponível em: <https://developers.Google.com/Search/docs/data-types/dataset>. Acesso em: 13 set. 2019.
GOOGLE. Rastreamento e indexação: manual de orientações técnicas para criação de metadados para rastreio de páginas web. 2020. Disponível em: <https://developers.Google.com/Search/reference/robots_meta_tag>. Acesso em: 20 abr. 2020.
HALEVY, A., Korn, F., Noy, N. F., Olston, C., Polyzotis, N., Roy, S., and Whang, S. E. Goods: Organizing Google’s datasets. Google, 2016. Disponível em: < https://static.googleusercontent.com/media/research.google.com/pt-br//pubs/archive/45390.pdf>. Acesso em: 12 set. 2019.
IDC – International Data Corporation. Smartphone Market Share - updated: 22 Jun 2020. Disponível em: <https://www.idc.com/promo/smartphone-market-share/os>. Acesso em: 02 set. 2020.
MYERS, Glenford J. The art of software testing. 3. ed. Word Association, New Jersey, EUA. 2012. Disponível em: <https://books.Google.com.br/books?hl=pt-BR&lr=&id=GjyEFPkMCwcC>. Acesso em: 26 abr. 2020.
NOY, Natasha. BURGESS, Matthew. BRICKLEY, Dan. Google Dataset Search: Building a Search engine for datasets in an open Web ecosystem. WebConf’2019, May 2019, San Francisco, CA USA. Disponível em: <https://doi.org/10.1145/3308558.3313685>. Acesso em: 14 set. 2019.
NOY, Natasha. Burgess, Matthew. Building Google Dataset Search and Fostering an Open Data Ecosystem. Google AI Blog. 2018. Disponível em: <https://ai.Googleblog.com/2018/09/building-Google-dataset-Search-and.html>. Acesso em: 10 set. 2019.
NOY, Natasha. Discovering millions of datasets on the web. Google BLOG. 2020. Disponível em: <https://www.blog.Google/products/Search/discovering-millions-datasets-web/>. Acesso em: 20 abr. 2020.
ROSA, Juan Miguel; VERAS, Manoel. Avaliação heurística de usabilidade em jornais online: estudo de caso em dois sites. Perspect. ciênc. inf., Belo Horizonte, v. 18, n. 1, p. 138-157, Mar. 2013 . Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413-99362013000100010&lng=en&nrm=iso>. Acesso em: 28 abr. 2020.
W3C - World Wide Web Consortium. Data Catalog Vocabulary (DCAT). 2014. Disponível em: < https://www.w3.org/TR/vocab-dcat/>. Acesso em: 09 set. 2019.
W3C - World Wide Web Consortium. Current Members. Disponível em: <https://www.w3.org/Consortium/Member/List>. Acesso em: 09 set. 2019.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2020 Eduardo Diniz Amaral
Esta obra está bajo una licencia internacional Creative Commons Atribución-CompartirIgual 4.0.
- La publicación se reserva el direcho de realizar, en los originales, cambios de orden normativa, ortográfica y gramatical, para mantener la norma culta del idioma, respetando el estilo de los autores;
- Las pruebas finales no seran enviadas a los autores;
- Los trabajos publicados pasan a ser propriedad de la revista Ciência da Informação, siendo su reimpresión total o parcial, sujeta a autorización expresa de la dirección del IBICT;
- Debe ser consignada la fuente de publicação original;
- Són de exclusiva responsabilidad de los autores las opiniones emitidas en sus artículos;
- Cada autor recibirá dos ejemplares de la revista, caso esté disponible en el formato impreso.