De online encyclopedie Wikipedia en andere Wikimedia-projecten zoals Wiktionary (woordenboek) en Wikivoyage (reisgids), kennen een onderliggende database annex classificatiesysteem: Wikidata.
Net als de inhoud van deze naslagwerken is ook Wikidata een product van crowdsourcing.
Wikidata heeft een open licentie (CC0) en is bijzonder omdat het hier niet louter gaat om het zoeken naar bestaande datasets. Je kunt er namelijk zelf datasets mee genereren op basis van een eigen zoekactie. Die kun je downloaden in csv-, tsv-, en json-formaat en voor elk doel gebruiken.
Ook oudere versies zijn voor downloaden beschikbaar.
Houd er rekening mee dat Wikidata voortdurend in verandering is!
Voor zoekacties in Wikidata is kennis van de structuur van Wikipedia en van de zoektaal SPARQL nodig, maar er is allerlei hulp beschikbaar, o.a. de Wikidata Query Builder en de Query Helper.
Zoals veel kennisdatabanken is Wikidata opgebouwd uit zogenaamde triples. Een triple is een een set van subject, predikaat en object. Het predikaat legt de relatie tussen subject en object.
Een triple kan gevormd worden door:
Subject: "Cristiano Ronaldo"
Predikaat: "is onderscheiden met"
Object: de "Bravo Award 2004"
Stel, je wilt een dataset met daarin alle onderscheidingen van Cristiano Ronaldo en de bijbehorende jaren.
![]() |
Toelichting:
Na klikken op de blauwe pijl wordt de zoekactie gestart en de dataset gecreƫerd.
De dataset toont o.a.
De set kan worden gedownload in tsv-, csv- en json-formaat.
In de volgende video wordt het hele proces uitgelegd, nu met betrekking tot de woonplaatsen van alle vrouwen die aan een bepaalde universiteit hebben gestudeerd.
Alleen de eerste 10 minuten zijn voor ons onderwerp relevant.
"Wikidata SPARQL Query Tutorial", van Wikimedian in Residence - University of Edinburgh https://youtu.be/1jHoUkj_mKw