Datasets worden op allerlei websites verzameld en aangeboden. We geven hier enkele belangrijke startpunten.
Onderzoekers van veel wetenschappelijke instituten slaan hun data op in 1 van deze databases:
Van universitaire repositories is de inhoud beperkt tot de 'productie' van 1 of enkele instellingen. Bij de UvA en HvA is dat
Nationale repositories: hierin worden onderzoeksresultaten inclusief datasets van meerdere universiteiten in een land ontsloten, vaak door het "oogsten" ( = informatie ophalen) vanuit universitaire repositories. In Nederland is dat
waarin vooral output van geestes- en sociale wetenschappen te vinden is.
Voor datasets met betrekking tot exacte wetenschap, techniek en geneeskunde kun je het beste terecht bij
Daarnaast zijn er allerlei vakspecifieke datazoekmachines. Op de websites van veel universitaire bibliotheken bieden informatiespecialisten daarvan een bloemlezing voor hun specifieke vakgebied.
Zie bijvoorbeeld de datamanagement-pagina's per discipline van de
UvA-bibliotheek: https://uba.uva.nl/en/search-the-collection/search-by-discipline
(kies een discipline en klik vervolgens op Datamanagement; dit is nog niet bij alle vakgebieden beschikbaar)
Ook zijn er de metacatalogi, ofwel de "repositories van repositories". Deze inventariseren niet de datasets zelf, maar de verzamelende repositories. Om hiermee succes te hebben, is het verstandig om grote onderwerpscategorieën te gebruiken.
Voorbeeld: ben je op zoek naar datasets over de neerslag in een bepaald jaar in Europa, zoek dan eerst op het grotere onderwerp 'weather'. De metacatalogus verwijst naar diverse repositories. Daar aangekomen gebruik je pas de specifiekere zoektermen 'rainfall' etc.
Ook met de algemene zoekmachine Google.com kun je zoeken naar datasets. Om niet te verdrinken in het aantal irrelevante resultaten, geven we volgende tips:
- typ, behalve het onderwerp, ook
data OR dataset OR "data set"
in de zoekopdracht.
- Specifiek zoeken naar een bepaald bestandsformaat kan met bijvoorbeeld
filetype:csv
en naar data vanuit een bepaalde site of internetdomein met bijvoorbeeld
site:.gov
- Plaats vóór woorden die NIET in het zoekresultaat moeten voorkomen een - (minteken).
Google biedt ook een zoekmachine voor datasets, die in 2020 is gelanceerd: