Deze e-learning is bedoeld voor docenten die open data (willen) gebruiken in hun onderwijs.
Na afloop:
kun je bepalen welke data open zijn en welke niet
weet je waar je op moet letten als je datasets in het onderwijs gebruikt of wilt gebruiken
ken je diverse websites waarop je kunt zoeken naar open data.
Het doornemen van de leestekst en video's en het maken van de opdrachten neemt ca. anderhalf uur in beslag.
Universiteitsbibliotheek, fotograaf Wouter van der Wolk
Deze e-learning is gemaakt door medewerkers van de Bibliotheek van de Universiteit van Amsterdam en de Hogeschool van Amsterdam. Hij is bedoeld voor de daar werkzame docenten, maar is ook elders bruikbaar.
Gebruik in onderwijs
Waarom zou je als docent open data willen zoeken en gebruiken in het onderwijs?
Data-vaardigheden zijn in steeds meer opleidingen belangrijk én voor steeds meer beroepen.
Uiteraard kun je zelfgemaakte voorbeeld-datasets gebruiken, maar voor de student is het waardevol om met datasets uit de praktijk kennis te maken. Door het gebruik van real life data kun je jouw onderwijs beter laten aansluiten bij de realiteit.
Hoger onderwijs bereidt studenten o.a. voor op het zelfstandig doen van onderzoek. Door de confrontatie met datasets in het onderwijs wordt de student zich beter bewust van het belang van data voor zijn of haar eigen onderzoek.
En tenslotte bevordert het gebruik van open data in het onderwijs het principe van open science: het beginsel dat de resultaten van wetenschap transparant en toegankelijk moeten zijn voor de gehele samenleving.
"Open Science" van NWO Wetenschap, 2020
Data
Wat is data?
"What is data?" van University of Guelph McLaughlin Library, 2019, CC BY-NC-SA
Data kan worden omschreven als de grondstof voor informatie. Op zichzelf hebben/heeft1 data geen betekenis; er is context en interpretatie nodig om de vragen wie, wat, waar en wanneer te beantwoorden, ofwel: om de data tot informatie om te vormen. Die informatie kan dan worden gebruikt om een betoog te onderbouwen en op die manier dienstbaar te zijn aan de wetenschap, openbaar bestuur of bedrijfsvoering.
Data die de onderzoeker zelf heeft verzameld, worden primaire data genoemd. Data uit andere bronnen noemen we secundair: dat zijn al bestaande data, bijvoorbeeld gevonden in een overheidsdatabase of een wetenschappelijke publicatie.
Primaire data kan op allerlei manieren tot stand komen:
observatie
meting
interviews
case studies
enquêtes
crowdsourcing (bijdragen van geïnteresseerde leken aan onderzoek).
Een andere indeling voor data is kwalitatief en kwantitatief: kwalitatieve data zijn niet numeriek; kwantitatieve data wel.
Een dataset is een verzameling van bij elkaar horende data. Zodra data open worden gepubliceerd, is dat meestal in de vorm van een dataset.
Een data paper beschrijft volgens de gebruiken binnen een wetenschappelijke discipline hoe een bepaalde online beschikbare dataset moet worden geïnterpreteerd.
Metadata zijn gegevens over data.
__________________
Noot
1.
In de traditionele betekenis is data het meervoud van datum. Een datum is 'iets dat gegeven is' en kan geteld worden (1 datum, 2 data, 3 data etc). Voorbeeld: "zijn deze data geschikt voor iedereen?"
Wanneer in de wetenschap wordt gesproken over data, is het niet gebruikelijk data te tellen. Elke hoeveelheid ervan kan worden aangeduid als data, zowel in de enkelvouds- als de meervoudsvorm. Zo gebruikt de New York Times naast elkaar de enkelvouds- en meervoudsvorm:
"the survey data are still being analyzed"
en
"the first year for which data is available".
Deze cursus gebruikt voor data ook enkelvoud en meervoud naast elkaar.
Open
Open science en FAIR
Openheid van onderzoeksdata past in de wereldwijde Open Science beweging, waarin steeds meer wetenschappers zich realiseren dat de resultaten van hun publiek gefinancierd onderzoek, inclusief de onderliggende data, voor een breed publiek ter beschikking moeten komen om transparantie te bevorderen.
In 2014 maakten wetenschappers in internationaal verband de afspraak om wetenschappelijke data voortaan volgens de FAIR-principes te beschrijven, opslaan en publiceren. FAIR is een acroniem voor findable, accessible, interoperable en reusable, ofwel: vindbaar, toegankelijk, uitwisselbaar en herbruikbaar.
Ook de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) heeft Open Science omarmd en stelt soortgelijke voorwaarden verplicht voor wetenschappers die door NWO worden gefinancierd.
"Open Data - explained in a nutshell" van Simpleshow Foundation
Open data buiten de wetenschap
Open Government
Veel overheidsorganisaties publiceren een deel van de data die zij verwerven open, omwille van de transparantie en verantwoording, de idealen van de Open Government beweging.
Open GLAM
Ook in de erfgoedsector (GLAM staat voor galleries, libraries, archives en museums) zijn sinds 2010 initiatieven om data omtrent collecties open beschikbaar te stellen voor het publiek.
Data is open wanneer aan de volgende voorwaarden is voldaan:
begrijpelijkheid voor machines
aanwezigheid van metadata
aanwezigheid van een open licentie
Begrijpelijk voor machines
Het is van belang dat de data machineleesbaar is. Dat betekent niet hetzelfde als "digitaal".
Veel documentformaten die we dagelijks met behulp van onze laptops en computers creëren zijn niet machineleesbaar. Ze zijn onleesbaar, tenzij je beschikt over het juiste software-pakket.
Voorbeelden:
Een PDF-bestand kan weliswaar door het programma Adobe Reader worden "ingelezen" en getoond, maar niet door andere software.
Een Excel-bestand kan door het programma MS Excel worden "ingelezen" en getoond, maar niet door andere programma's of door programmeeromgevingen.
"Maar je kunt een xlsx-bestand toch eenvoudig opslaan in het csv-formaat?" Ja, maar dan gaat informatie verloren, zoals formules en betekenisvol gebruik van kleuren.
Open data moeten door de computer geëxtraheerd en verwerkt kunnen worden. De garantie daarvoor is het bestandsformaat.
Machineleesbare formaten zijn o.a.
.tsv ofwel tab separated values: een tabel waarin elke rij op een nieuwe regel begint en tussen elke 2 kolommen een horizontale tab (witruimte) staat
.csv ofwel comma separated values: een tabel waarin elke rij op een nieuwe regel begint en waarin tussen elke 2 kolommen een komma of puntkomma staat
.txt ofwel platte tekst: dit is een tekst ontdaan van alle opmaak, lettertype en afbeeldingen
.json: in dit formaat kunnen relaties tussen objecten worden beschreven.
Bestanden in deze formaten kunnen altijd door elke computer worden geopend en gelezen, ongeacht de geïnstalleerde software.
Een tabel gevuld met getallen en/of tekst heeft basale uitleg nodig:
waarover gaan deze data?
hoe zijn ze verkregen?
waar en wanneer zijn ze verkregen?
welke meeteenheid is gehanteerd?
wat betekenen de gebruikte afkortingen?
etc.
Het antwoord op die vragen moet duidelijk worden met behulp van metadata ("data over data"). Het is gebruikelijk om die in een apart tekstbestand toe te voegen aan de dataset.
Open licentie
Publicatie van een dataset op internet wil nog niet zeggen dat die hierdoor "open" is. De maker ervan heeft namelijk auteursrecht! Als hij/zij niet expliciet heeft aangegeven dat de dataset open staat voor hergebruik, dan is de data niet open.
Net als bij andere "werken van kunst, wetenschap of letterkunde" (zo staat dat in de Auteurswet) geldt dat ook de maker van een dataset het auteursrecht erop heeft: alleen de maker heeft het recht de dataset te verveelvoudigen of te verspreiden.
Dit houdt in dat een gebruiker een dataset van iemand anders in beginsel alleen mag bekijken en downloaden voor eigen gebruik. Kopieën maken voor een groep studenten, combineren van de data met andere, en vervolgens herpubliceren of verspreiden zijn inbreuken op het auteursrecht van de maker. Ook in het onderwijs!
Tenzij.... de maker vooraf een voorwaardelijke toestemming heeft gegeven voor gebruik en hergebruik, dat wil zeggen een vergunning ofwel een licentie aan het werk heeft gehecht. Hierdoor behoudt de maker het auteursrecht, maar er ontstaan wel mogelijkheden voor anderen om de dataset te verspreiden.
Zonder een licentie kan de dataset niet open zijn!
Hoe ontdek je of aan een dataset een licentie is gehecht?
De maker zou zelf de licentievoorwaarden kunnen uitschrijven. Dat gebeurt echter zelden of nooit.
Makers gebruiken vrijwel altijd een bestaand licentiesysteem. Het niet hoeven bedenken en uitschrijven van voorwaarden spaart hen tijd, en het niet hoeven lezen ervan spaart jou tijd.
Creative Commons (CC) is wereldwijd is het meest gebruikte licentiesysteem. In dit systeem worden logo's en afkortingen gebruikt voor de voorwaarden. De maker selecteert één of meer logo's en/of afkortingen.
CC-BY
Hergebruik is toegestaan op voorwaarde dat een correcte bronvermelding wordt toegevoegd.
CC-ND
Hergebruik is toegestaan op voorwaarde dat geen afgeleide werken worden gepubliceerd.
CC-SA
Hergebruik is toegestaan, op voorwaarde dat afgeleide werken met dezelfde licentie worden gepubliceerd (share alike).
CC-NC
Hergebruik is toegestaan, maar alleen met niet-commerciële doelen.
"What is Creative Commons? Creative Commons License Types Basics Explained" van Creative Common Studio, 2020
Opdrachten
Voorbeelden
Websites
Op internet zijn veel open datasets te vinden. Hieronder enkele voorbeelden van websites die deze aanbieden.
Wetenschap
Overheden
Zoals hier de gemeente Amsterdam:
De cultuursector
Financiële markten
.
Verzamelaars van statistische gegevens
Zoals het CBS.
Weer en klimaat
Datasets
Hieronder staan enkele voorbeelden van datasets.
In de linkerkolom zie je de webpagina die de dataset introduceert. Elke website heeft uiteraard z'n eigen manier van presenteren, maar constanten zijn:
titel
maker
(link naar) de beschrijving (metadata)
grootte
datum/jaar van publicatie
een knop waarmee je de dataset naar je computer downloadt.
Meestal vind je ook een licentie-aanduiding, die je vertelt of en hoe je deze dataset mag hergebruiken. Staat zo'n aanduiding er niet bij, kijk dan naar de algemene informatie van de dataverzamelaar, meestal in de "About"-sectie van de site: wellicht geldt voor alle sets dezelfde licentie. Nogmaals: zonder licentie is de data niet open.
In de rechterkolom staat een voorbeeld van de data, zoals je die kunt downloaden naar je eigen computer, bezien met een "platte" teksteditor.
webpagina
blik op de data na downloaden
Kwaliteit en bruikbaarheid
Om te bepalen welke open datasets (dus met een licentie) geschikt zijn voor gebruik in het onderwijs kun je diverse beoordelingscriteria gebruiken.
Zoek vooral naar downloadbare datasets en niet naar real time data die via een API ("application programming interface") continu wordt geactualiseerd. Dat laatste geldt bevoorbeeld voor beursdata. Daarbij is het namelijk lastig om met een groep studenten over dezelfde data te kunnen beschikken.
Metadata
Is er metadata aanwezig, zodat je kan zien hoe deze data is/wordt verzameld?
Bron
Wie (persoon of instantie) is de maker van de dataset en in hoeverre wekt deze vertrouwen?
Kun je erop vertrouwen dat deze voor de duur van het onderwijsblok stabiel zal zijn?
Grootte
Is de dataset niet te groot?
Houd rekening met het feit dat studenten niet allemaal een hele moderne computer hebben. Als het werkgeheugen (RAM) van een computer 4GB is, kan die een dataset van maximaal 4GB aan, maar dan kunnen niet tegelijk ook andere programma's worden gebruikt.
Bestandsformaat
Is het bestandsformaat geschikt voor verwerking door de studenten?
De formaten .csv, .tsv en .txt zijn zonder problemen door elke computer te lezen.
De formaten .zip, en .gz beduiden dat dit mapjes met "ingepakte" bestanden zijn; wat het werkelijke formaat is wordt pas duidelijk na het uitpakken.
Vinden
Startpunten
Datasets worden op allerlei websites verzameld en aangeboden. We geven hier enkele belangrijke startpunten.
Wetenschap
Onderzoekers van veel wetenschappelijke instituten slaan hun data op in 1 van deze databases:
Nationale repositories: hierin worden onderzoeksresultaten inclusief datasets van meerdere universiteiten in een land ontsloten, vaak door het "oogsten" ( = informatie ophalen) vanuit universitaire repositories. In Nederland is dat
Daarnaast zijn er allerlei vakspecifieke datazoekmachines. Op de websites van veel universitaire bibliotheken bieden informatiespecialisten daarvan een bloemlezing voor hun specifieke vakgebied.
Zie bijvoorbeeld de datamanagement-pagina's per discipline van de
Ook zijn er de metacatalogi, ofwel de "repositories van repositories". Deze inventariseren niet de datasets zelf, maar de verzamelende repositories. Om hiermee succes te hebben, is het verstandig om grote onderwerpscategorieën te gebruiken.
Voorbeeld: ben je op zoek naar datasets over de neerslag in een bepaald jaar in Europa, zoek dan eerst op het grotere onderwerp 'weather'. De metacatalogus verwijst naar diverse repositories. Daar aangekomen gebruik je pas de specifiekere zoektermen 'rainfall' etc.
Ook met de algemene zoekmachine Google.com kun je zoeken naar datasets. Om niet te verdrinken in het aantal irrelevante resultaten, geven we volgende tips:
- typ, behalve het onderwerp, ook
data OR dataset OR "data set"
in de zoekopdracht.
- Specifiek zoeken naar een bepaald bestandsformaat kan met bijvoorbeeld
filetype:csv
en naar data vanuit een bepaalde site of internetdomein met bijvoorbeeld
site:.gov
- Plaats vóór woorden die NIET in het zoekresultaat moeten voorkomen een - (minteken).
Google biedt ook een zoekmachine voor datasets, die in 2020 is gelanceerd:
De online encyclopedie Wikipedia en andere Wikimedia-projecten zoals Wiktionary (woordenboek) en Wikivoyage (reisgids), kennen een onderliggende database annex classificatiesysteem: Wikidata.
Net als de inhoud van deze naslagwerken is ook Wikidata een product van crowdsourcing.
Wikidata heeft een open licentie (CC0) en is bijzonder omdat het hier niet louter gaat om het zoeken naar bestaande datasets. Je kunt er namelijk zelf datasets mee genereren op basis van een eigen zoekactie. Die kun je downloaden in csv-, tsv-, en json-formaat en voor elk doel gebruiken.
Ook oudere versies zijn voor downloaden beschikbaar.
Houd er rekening mee dat Wikidata voortdurend in verandering is!
Voor zoekacties in Wikidata is kennis van de structuur van Wikipedia en van de zoektaal SPARQL nodig, maar er is allerlei hulp beschikbaar, o.a. de Wikidata Query Builder en de Query Helper.
Zoals veel kennisdatabanken is Wikidata opgebouwd uit zogenaamde triples. Een triple is een een set van subject, predikaat en object. Het predikaat legt de relatie tussen subject en object.
Voorbeeld
Een triple kan gevormd worden door:
Subject: "Cristiano Ronaldo"
Predikaat: "is onderscheiden met"
Object: de "Bravo Award 2004"
Stel, je wilt een dataset met daarin alle onderscheidingen van Cristiano Ronaldo en de bijbehorende jaren.
De set kan worden gedownload in tsv-, csv- en json-formaat.
Video
In de volgende video wordt het hele proces uitgelegd, nu met betrekking tot de woonplaatsen van alle vrouwen die aan een bepaalde universiteit hebben gestudeerd.
Alleen de eerste 10 minuten zijn voor ons onderwerp relevant.
"Wikidata SPARQL Query Tutorial", van Wikimedian in Residence - University of Edinburgh
Opdrachten
Tot slot
Aan het eind gekomen van deze e-learning geven we enkele suggesties over het bekijken, analyseren en verwerken van de gevonden datasets. De suggesties zijn heel algemeen, want uiteindelijk worden je keuzes voor het grootste deel bepaald door jouw specifieke vakgebied en onderwijsdoel.
Bekijken
Txt-bestanden bevatten "platte tekst". Ze kunnen worden bekeken in elke "platte" tekstverwerker, zoals o.a. NotePad en Kladblok. Wil je meerdere tekstbestanden met elkaar vergelijken, bijvoorbeeld op stijlkenmerken, dan is het programma AntConc geschikt.
Csv- en tsv-bestanden bevatten tabelvormige data, die je met een tussenstap kunt bekijken in Excel.
"How to convert txt file to csv or excel file" van Krishna Ojha, 2020
Analyseren
Bestanden in zowel csv- als tsv-formaat kunnen worden ingelezen in OpenRefine (gratis). Dat programma is bruikbaar voor wie geen programmeerkennis heeft en is geschikt voor analyse-taken, zoals het weergeven van frequentie van unieke waarden. Ook kan OpenRefine worden ingezet om de gegevens te verrijken met data uit andere bronnen.
"OpenRefine demo" van Henaramay, 2020
Verwerken
Voor geavanceerder analyse, verwerking, manipulatie en visualisatie van de data is programmeerkennis en een programmeeromgeving nodig, bijvoorbeeld Python Pandas. Dit valt buiten de scope van wat we hier behandelen.
______________
Dank
je bent aan het einde van de e-learning.
Dank voor je deelname en heel veel succes bij het vinden en gebruiken van open data in jouw onderwijs.
Commentaar, suggesties of vragen? Je kunt terecht bij Alice Doek.
Het arrangement Open data voor onderwijs is gemaakt met
Wikiwijs van
Kennisnet. Wikiwijs is hét onderwijsplatform waar je leermiddelen zoekt,
maakt en deelt.
Dit lesmateriaal is gepubliceerd onder de Creative Commons Naamsvermelding-GelijkDelen 4.0 Internationale licentie. Dit houdt in dat je onder de voorwaarde van naamsvermelding en publicatie onder dezelfde licentie vrij bent om:
het werk te delen - te kopiëren, te verspreiden en door te geven via elk medium of bestandsformaat
het werk te bewerken - te remixen, te veranderen en afgeleide werken te maken
voor alle doeleinden, inclusief commerciële doeleinden.
Leeromgevingen die gebruik maken van LTI kunnen Wikiwijs arrangementen en toetsen afspelen en resultaten
terugkoppelen. Hiervoor moet de leeromgeving wel bij Wikiwijs aangemeld zijn. Wil je gebruik maken van de LTI
koppeling? Meld je aan via info@wikiwijs.nl met het verzoek om een LTI
koppeling aan te gaan.
Maak je al gebruik van LTI? Gebruik dan de onderstaande Launch URL’s.
Arrangement
IMSCC package
Wil je de Launch URL’s niet los kopiëren, maar in één keer downloaden? Download dan de IMSCC package.
Wikiwijs lesmateriaal kan worden gebruikt in een externe leeromgeving. Er kunnen koppelingen worden gemaakt en
het lesmateriaal kan op verschillende manieren worden geëxporteerd. Meer informatie hierover kun je vinden op
onze Developers Wiki.