Open data voor onderwijs

Open data voor onderwijs

Inleiding

Deze e-learning is bedoeld voor docenten die open data (willen) gebruiken in hun onderwijs.

Na afloop:

  • kun je bepalen welke data open zijn en welke niet
  • weet je waar je op moet letten als je datasets in het onderwijs gebruikt of wilt gebruiken
  • ken je diverse websites waarop je kunt zoeken naar open data.

Het doornemen van de leestekst en video's en het maken van de opdrachten neemt ca. anderhalf uur in beslag.

 

Engelstalige versie / English version

 

Universiteitsbibliotheek, fotograaf Wouter van der Wolk
Universiteitsbibliotheek, fotograaf Wouter van der Wolk

Deze e-learning is gemaakt door medewerkers van de Bibliotheek van de Universiteit van Amsterdam en de Hogeschool van Amsterdam. Hij is bedoeld voor de daar werkzame docenten, maar is ook elders bruikbaar.

 

Gebruik in onderwijs

Waarom zou je als docent open data willen zoeken en gebruiken in het onderwijs?

Data-vaardigheden zijn in steeds meer opleidingen belangrijk én voor steeds meer beroepen.

Uiteraard kun je zelfgemaakte voorbeeld-datasets gebruiken, maar voor de student is het waardevol om met datasets uit de praktijk kennis te maken. Door het gebruik van real life data kun je jouw onderwijs beter laten aansluiten bij de realiteit.

Hoger onderwijs bereidt studenten o.a. voor op het zelfstandig doen van onderzoek. Door de confrontatie met datasets in het onderwijs wordt de student zich beter bewust van het belang van data voor zijn of haar eigen onderzoek.

En tenslotte bevordert het gebruik van open data in het onderwijs het principe van open science: het beginsel dat de resultaten van wetenschap transparant en toegankelijk moeten zijn voor de gehele samenleving.

"Open Science" van NWO Wetenschap, 2020

Data

Wat is data?

"What is data?" van University of Guelph McLaughlin Library, 2019, CC BY-NC-SA

Data kan worden omschreven als de grondstof voor informatie. Op zichzelf hebben/heeft1 data geen betekenis; er is context en interpretatie nodig om de vragen wie, wat, waar en wanneer te beantwoorden, ofwel: om de data tot informatie om te vormen. Die informatie kan dan worden gebruikt om een betoog te onderbouwen en op die manier dienstbaar te zijn aan de wetenschap, openbaar bestuur of bedrijfsvoering.

Data die de onderzoeker zelf heeft verzameld, worden primaire data genoemd. Data uit andere bronnen noemen we secundair: dat zijn al bestaande data, bijvoorbeeld gevonden in een overheidsdatabase of een wetenschappelijke publicatie.

Primaire data kan op allerlei manieren tot stand komen:

  • observatie

  • meting

  • interviews

  • case studies

  • enquêtes

  • crowdsourcing (bijdragen van geïnteresseerde leken aan onderzoek).

 

Een andere indeling voor data is kwalitatief en kwantitatief: kwalitatieve data zijn niet numeriek; kwantitatieve data wel.

Een dataset is een verzameling van bij elkaar horende data. Zodra data open worden gepubliceerd, is dat meestal in de vorm van een dataset.

Een data paper beschrijft volgens de gebruiken binnen een wetenschappelijke discipline hoe een bepaalde online beschikbare dataset moet worden geïnterpreteerd.

Metadata zijn gegevens over data.

 

__________________

 

Noot

1.

In de traditionele betekenis is data het meervoud van datum. Een datum is 'iets dat gegeven is' en kan geteld worden (1 datum, 2 data, 3 data etc). Voorbeeld:
"zijn deze data geschikt voor iedereen?"
Wanneer in de wetenschap wordt gesproken over data, is het niet gebruikelijk data te tellen. Elke hoeveelheid ervan kan worden aangeduid als data, zowel in de enkelvouds- als de meervoudsvorm. Zo gebruikt de New York Times naast elkaar de enkelvouds- en meervoudsvorm:

"the survey data are still being analyzed"

en

"the first year for which data is available".

Deze cursus gebruikt voor data ook enkelvoud en meervoud naast elkaar.

Open

Open science en FAIR

Openheid van onderzoeksdata past in de wereldwijde Open Science beweging, waarin steeds meer wetenschappers zich realiseren dat de resultaten van hun publiek gefinancierd onderzoek, inclusief de onderliggende data, voor een breed publiek ter beschikking moeten komen om transparantie te bevorderen.

In 2014 maakten wetenschappers in internationaal verband de afspraak om wetenschappelijke data voortaan volgens de FAIR-principes te beschrijven, opslaan en publiceren. FAIR is een acroniem voor findable, accessible, interoperable en reusable, ofwel: vindbaar, toegankelijk, uitwisselbaar en herbruikbaar.

 

 

 

 

Ook de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) heeft Open Science omarmd en stelt soortgelijke voorwaarden verplicht voor wetenschappers die door NWO worden gefinancierd.

 

"Open Data - explained in a nutshell" van Simpleshow Foundation

Open data buiten de wetenschap

Open Government

Veel overheidsorganisaties publiceren een deel van de data die zij verwerven open, omwille van de transparantie en verantwoording, de idealen van de Open Government beweging.

Open GLAM

Ook in de erfgoedsector (GLAM staat voor galleries, libraries, archives en museums) zijn sinds 2010 initiatieven om data omtrent collecties open beschikbaar te stellen voor het publiek.

De Bibliotheek UvA/HvA doet dat bijvoorbeeld.

 

Voorwaarden voor open

 

Data is open wanneer aan de volgende voorwaarden is voldaan:

  • begrijpelijkheid voor machines
  • aanwezigheid van metadata
  • aanwezigheid van een open licentie

Begrijpelijk voor machines

Het is van belang dat de data machineleesbaar is. Dat betekent niet hetzelfde als "digitaal".

Veel documentformaten die we dagelijks met behulp van onze laptops en computers creëren zijn niet machineleesbaar. Ze zijn onleesbaar, tenzij je beschikt over het juiste software-pakket.

Voorbeelden:

  • Een PDF-bestand kan weliswaar door het programma Adobe Reader worden "ingelezen" en getoond, maar niet door andere software.
  • Een Excel-bestand kan door het programma MS Excel worden "ingelezen" en getoond, maar niet door andere programma's of door programmeeromgevingen.

"Maar je kunt een xlsx-bestand toch eenvoudig opslaan in het csv-formaat?" Ja, maar dan gaat informatie verloren, zoals formules en betekenisvol gebruik van kleuren.

Open data  moeten door de computer geëxtraheerd en verwerkt kunnen worden. De garantie daarvoor is het bestandsformaat.

Machineleesbare formaten zijn o.a.

  • .tsv ofwel tab separated values: een tabel waarin elke rij op een nieuwe regel begint en tussen elke 2 kolommen een horizontale tab (witruimte) staat
  • .csv ofwel comma separated values: een tabel waarin elke rij op een nieuwe regel begint en waarin tussen elke 2 kolommen een komma of puntkomma staat
  • .txt ofwel platte tekst: dit is een tekst ontdaan van alle opmaak, lettertype en afbeeldingen
  • .json: in dit formaat kunnen relaties tussen objecten worden beschreven.

Bestanden in deze formaten kunnen altijd door elke computer worden geopend en gelezen, ongeacht de geïnstalleerde software.

Meer informatie over bestandsformaten

 

Aanwezigheid van metadata

Een tabel gevuld met getallen en/of tekst heeft basale uitleg nodig:

  • waarover gaan deze data?
  • hoe zijn ze verkregen?
  • waar en wanneer zijn ze verkregen?
  • welke meeteenheid is gehanteerd?
  • wat betekenen de gebruikte afkortingen?
  • etc.

Het antwoord op die vragen moet duidelijk worden met behulp van metadata ("data over data"). Het is gebruikelijk om die in een apart tekstbestand toe te voegen aan de dataset.

 

Open licentie

Publicatie van een dataset op internet wil nog niet zeggen dat die hierdoor "open" is. De maker ervan heeft namelijk auteursrecht! Als hij/zij niet expliciet heeft aangegeven dat de dataset open staat voor hergebruik, dan is de data niet open.

Net als bij andere "werken van kunst, wetenschap of letterkunde" (zo staat dat in de Auteurswet) geldt dat ook de maker van een dataset het auteursrecht erop heeft: alleen de maker heeft het recht de dataset te verveelvoudigen of te verspreiden.

Auteursrecht ontstaat automatisch, dus niet pas doordat de maker een ©-teken heeft geplaatst.
En het blijft ook bestaan nadat de maker de dataset op een website heeft gepubliceerd of laten publiceren.

Dit houdt in dat een gebruiker een dataset van iemand anders in beginsel alleen mag bekijken en downloaden voor eigen gebruik. Kopieën maken voor een groep studenten, combineren van de data met andere, en vervolgens herpubliceren of verspreiden zijn inbreuken op het auteursrecht van de maker. Ook in het onderwijs!

Tenzij.... de maker vooraf een voorwaardelijke toestemming heeft gegeven voor gebruik en hergebruik, dat wil zeggen een vergunning ofwel een licentie aan het werk heeft gehecht. Hierdoor behoudt de maker het auteursrecht, maar er ontstaan wel mogelijkheden voor anderen om de dataset te verspreiden.

Zonder een licentie kan de dataset niet open zijn!

 

Hoe ontdek je of aan een dataset een licentie is gehecht?

De maker zou zelf de licentievoorwaarden kunnen uitschrijven. Dat gebeurt echter zelden of nooit.

Makers gebruiken vrijwel altijd een bestaand licentiesysteem. Het niet hoeven bedenken en uitschrijven van voorwaarden spaart hen tijd, en het niet hoeven lezen ervan spaart jou tijd.

Creative Commons (CC) is wereldwijd is het meest gebruikte licentiesysteem. In dit systeem worden logo's en afkortingen gebruikt voor de voorwaarden. De maker selecteert één of meer logo's en/of afkortingen.

 

    CC-BY Hergebruik is toegestaan op voorwaarde dat een correcte bronvermelding wordt toegevoegd.
CC-ND Hergebruik is toegestaan op voorwaarde dat geen afgeleide werken worden gepubliceerd.
CC-SA Hergebruik is toegestaan, op voorwaarde dat afgeleide werken met dezelfde licentie worden gepubliceerd (share alike).
CC-NC Hergebruik is toegestaan, maar alleen met niet-commerciële doelen.
CC-0 Geen voorwaarden; publiek domein

 


Andere licentievormen

Sommige overheden en internationale organisaties gebruiken geen Creative Commons maar hebben eigen licentievormen gemaakt, zoals de UK Open Government License, The World Bank Terms of Use en de French Government License Ouverte.

 

 

 

"What is Creative Commons? Creative Commons License Types Basics Explained" van Creative Common Studio, 2020

Opdrachten

Voorbeelden

Websites

Op internet zijn veel open datasets te vinden. Hieronder enkele voorbeelden van websites die deze aanbieden.
 

Wetenschap

 
https://data.4tu.nl/portal

 

 

Overheden

Zoals hier de gemeente Amsterdam:

 

Datasets

Hieronder staan enkele voorbeelden van datasets.

In de linkerkolom zie je de webpagina die de dataset introduceert. Elke website heeft uiteraard z'n eigen manier van presenteren, maar constanten zijn:

  • titel
  • maker
  • (link naar) de beschrijving (metadata)
  • grootte
  • datum/jaar van publicatie
  • een knop waarmee je de dataset naar je computer downloadt.

Meestal vind je ook een licentie-aanduiding, die je vertelt of en hoe je deze dataset mag hergebruiken. Staat zo'n aanduiding er niet bij, kijk dan naar de algemene informatie van de dataverzamelaar, meestal in de "About"-sectie van de site: wellicht geldt voor alle sets dezelfde licentie. Nogmaals: zonder licentie is de data niet open.

In de rechterkolom staat een voorbeeld van de data, zoals je die kunt downloaden naar je eigen computer, bezien met een "platte" teksteditor.

 

webpagina blik op de data na downloaden
https://data.4tu.nl/articles/dataset/Participatory_Value_Evaluation_for_relaxation_of_COVID-19_measures/14413958
https://data.4tu.nl/articles/dataset/Participatory_Value_Evaluation_for_relaxation_of_COVID-19_measures/14413958?file=27556598

 

https://www.kaggle.com/datasets/elgunisgandarli/active-and-awarded-grants-usa
https://www.kaggle.com/datasets/elgunisgandarli/active-and-awarded-grants-usa?resource=download

 

https://ec.europa.eu/eurostat/databrowser/view/tag00081/default/table?lang=en
https://ec.europa.eu/eurostat/databrowser/product/view/FISH_CA_ATL37

 

 

 

Kwaliteit en bruikbaarheid

Om te bepalen welke open datasets (dus met een licentie) geschikt zijn voor gebruik in het onderwijs kun je diverse beoordelingscriteria gebruiken.
Zoek vooral naar downloadbare datasets en niet naar real time data die via een API ("application programming interface") continu wordt geactualiseerd. Dat laatste geldt bevoorbeeld voor beursdata. Daarbij is het namelijk lastig om met een groep studenten over dezelfde data te kunnen beschikken.

Metadata

Is er metadata aanwezig, zodat je kan zien hoe deze data is/wordt verzameld?

Bron

Wie (persoon of instantie) is de maker van de dataset en in hoeverre wekt deze vertrouwen?
Kun je erop vertrouwen dat deze voor de duur van het onderwijsblok stabiel zal zijn?

Grootte

Is de dataset niet te groot?
Houd rekening met het feit dat studenten niet allemaal een hele moderne computer hebben. Als het werkgeheugen (RAM) van een computer 4GB is, kan die een dataset van maximaal 4GB aan, maar dan kunnen niet tegelijk ook andere programma's worden gebruikt.

Bestandsformaat

Is het bestandsformaat geschikt voor verwerking door de studenten?
De formaten .csv, .tsv en .txt zijn zonder problemen door elke computer te lezen.
De formaten .zip, en .gz beduiden dat dit mapjes met "ingepakte" bestanden zijn; wat het werkelijke formaat is wordt pas duidelijk na het uitpakken.

Vinden

Startpunten

Datasets worden op allerlei websites verzameld en aangeboden. We geven hier enkele belangrijke startpunten.

Wetenschap


Onderzoekers van veel wetenschappelijke instituten slaan hun data op in 1 van deze databases:

Van universitaire repositories is de inhoud beperkt tot de 'productie' van 1 of enkele instellingen. Bij de UvA en HvA is dat

Nationale repositories: hierin worden onderzoeksresultaten inclusief datasets van meerdere universiteiten in een land ontsloten, vaak door het "oogsten" ( = informatie ophalen) vanuit universitaire repositories. In Nederland is dat

waarin vooral output van geestes- en sociale wetenschappen te vinden is.

Voor datasets met betrekking tot exacte wetenschap, techniek en geneeskunde kun je het beste terecht bij

Publieke sector

Vakgebieden

Daarnaast zijn er allerlei vakspecifieke datazoekmachines. Op de websites van veel universitaire bibliotheken bieden informatiespecialisten daarvan een bloemlezing voor hun specifieke vakgebied.
Zie bijvoorbeeld de datamanagement-pagina's per discipline van de

Overkoepelend

Ook zijn er de metacatalogi, ofwel de "repositories van repositories". Deze inventariseren niet de datasets zelf, maar de verzamelende repositories. Om hiermee succes te hebben, is het verstandig om grote onderwerpscategorieën te gebruiken.

Voorbeeld: ben je op zoek naar datasets over de neerslag in een bepaald jaar in Europa, zoek dan eerst op het grotere onderwerp 'weather'. De metacatalogus verwijst naar diverse repositories. Daar aangekomen gebruik je pas de specifiekere zoektermen 'rainfall' etc.

Google

Ook met de algemene zoekmachine Google.com kun je zoeken naar datasets. Om niet te verdrinken in het aantal irrelevante resultaten, geven we volgende tips:

- typ, behalve het onderwerp, ook

data OR dataset OR "data set"

in de zoekopdracht.

- Specifiek zoeken naar een bepaald bestandsformaat kan met bijvoorbeeld

filetype:csv

en naar data vanuit een bepaalde site of internetdomein met bijvoorbeeld

site:.gov

- Plaats vóór woorden die NIET in het zoekresultaat moeten voorkomen een - (minteken).


Google biedt ook een zoekmachine voor datasets, die in 2020 is gelanceerd:

 

Wikidata

De online encyclopedie Wikipedia en andere Wikimedia-projecten zoals Wiktionary (woordenboek) en Wikivoyage (reisgids), kennen een onderliggende database annex classificatiesysteem: Wikidata.

Net als de inhoud van deze naslagwerken is ook Wikidata een product van crowdsourcing.

Wikidata heeft een open licentie (CC0) en is bijzonder omdat het hier niet louter gaat om het zoeken naar bestaande datasets. Je kunt er namelijk zelf datasets mee genereren op basis van een eigen zoekactie. Die kun je downloaden in csv-, tsv-, en json-formaat en voor elk doel gebruiken.
Ook oudere versies zijn voor downloaden beschikbaar.

Houd er rekening mee dat Wikidata voortdurend in verandering is!

Voor zoekacties in Wikidata is kennis van de structuur van Wikipedia en van de zoektaal SPARQL nodig, maar er is allerlei hulp beschikbaar, o.a. de Wikidata Query Builder en de Query Helper.

 

Triples

Zoals veel kennisdatabanken is Wikidata opgebouwd uit zogenaamde triples. Een triple is een een set van subject, predikaat en object. Het predikaat legt de relatie tussen subject en object.

By CmplstofB - Own work, WTFPL, https://commons.wikimedia.org/w/index.php?curid=82141957

 

Voorbeeld

Een triple kan gevormd worden door:

Subject: "Cristiano Ronaldo"
Predikaat: "is onderscheiden met"
Object: de "Bravo Award 2004"

Stel, je wilt een dataset met daarin alle onderscheidingen van Cristiano Ronaldo en de bijbehorende jaren.

Wikidata: zoekactie naar prijzen die Cristiano Ronaldo heeft ontvangen, geordend per jaar. Url

 

Toelichting:

Na klikken op de blauwe pijl wordt de zoekactie gestart en de dataset gecreëerd.
De dataset toont o.a.

De set kan worden gedownload in tsv-, csv- en json-formaat.

 

Video

In de volgende video wordt het hele proces uitgelegd, nu met betrekking tot de woonplaatsen van alle vrouwen die aan een bepaalde universiteit hebben gestudeerd.
Alleen de eerste 10 minuten zijn voor ons onderwerp relevant.

"Wikidata SPARQL Query Tutorial", van Wikimedian in Residence - University of Edinburgh

Opdrachten

Tot slot

Aan het eind gekomen van deze e-learning geven we enkele suggesties over het bekijken, analyseren en verwerken van de gevonden datasets. De suggesties zijn heel algemeen, want uiteindelijk worden je keuzes voor het grootste deel bepaald door jouw specifieke vakgebied en onderwijsdoel.

 

Bekijken

Txt-bestanden bevatten "platte tekst". Ze kunnen worden bekeken in elke "platte" tekstverwerker, zoals o.a. NotePad en Kladblok. Wil je meerdere tekstbestanden met elkaar vergelijken, bijvoorbeeld op stijlkenmerken, dan is het programma AntConc geschikt.

Csv- en tsv-bestanden bevatten tabelvormige data, die je met een tussenstap kunt bekijken in Excel.

"How to convert txt file to csv or excel file" van Krishna Ojha, 2020

Analyseren

Bestanden in zowel csv- als tsv-formaat kunnen worden ingelezen in OpenRefine (gratis). Dat programma is bruikbaar voor wie geen programmeerkennis heeft en is geschikt voor analyse-taken, zoals het weergeven van frequentie van unieke waarden. Ook kan OpenRefine worden ingezet om de gegevens te verrijken met data uit andere bronnen.

 

"OpenRefine demo" van Henaramay, 2020

Verwerken

Voor geavanceerder analyse, verwerking, manipulatie en visualisatie van de data is programmeerkennis en een programmeeromgeving nodig, bijvoorbeeld Python Pandas. Dit valt buiten de scope van wat we hier behandelen.

______________

 

Dank

je bent aan het einde van de e-learning.
Dank voor je deelname en heel veel succes bij het vinden en gebruiken van open data in jouw onderwijs.

Commentaar, suggesties of vragen? Je kunt terecht bij Alice Doek.

 

 

 

  • Het arrangement Open data voor onderwijs is gemaakt met Wikiwijs van Kennisnet. Wikiwijs is hét onderwijsplatform waar je leermiddelen zoekt, maakt en deelt.

    Laatst gewijzigd
    2023-08-07 11:39:29
    Licentie

    Dit lesmateriaal is gepubliceerd onder de Creative Commons Naamsvermelding-GelijkDelen 4.0 Internationale licentie. Dit houdt in dat je onder de voorwaarde van naamsvermelding en publicatie onder dezelfde licentie vrij bent om:

    • het werk te delen - te kopiëren, te verspreiden en door te geven via elk medium of bestandsformaat
    • het werk te bewerken - te remixen, te veranderen en afgeleide werken te maken
    • voor alle doeleinden, inclusief commerciële doeleinden.

    Meer informatie over de CC Naamsvermelding-GelijkDelen 4.0 Internationale licentie.

    Aanvullende informatie over dit lesmateriaal

    Van dit lesmateriaal is de volgende aanvullende informatie beschikbaar:

    Toelichting
    Over het vinden en gebruiken van open data in het hoger onderwijs
    Eindgebruiker
    leraar
    Moeilijkheidsgraad
    gemiddeld
    Studiebelasting
    1 uur en 30 minuten
    Trefwoorden
    gebruik, onderwijs, open data, zoeken

    Bronnen

    Bron Type
    "Open Science" van NWO Wetenschap, 2020
    https://youtu.be/BIHuPGg0YT0
    Video
    "What is data?" van University of Guelph McLaughlin Library, 2019, CC BY-NC-SA
    https://youtu.be/pg12U1BAnoA
    Video
    "Open Data - explained in a nutshell" van Simpleshow Foundation
    https://youtu.be/c42QNa-rccw
    Video
    "What is Creative Commons? Creative Commons License Types Basics Explained" van Creative Common Studio, 2020
    https://youtu.be/4MYSVhKcnaA
    Video
    "Wikidata SPARQL Query Tutorial", van Wikimedian in Residence - University of Edinburgh
    https://youtu.be/1jHoUkj_mKw
    Video
    "How to convert txt file to csv or excel file" van Krishna Ojha, 2020
    https://youtu.be/d9i2nBhg3aM
    Video
    "OpenRefine demo" van Henaramay, 2020
    https://youtu.be/yjLIRNpc2RQ
    Video
  • Downloaden

    Het volledige arrangement is in de onderstaande formaten te downloaden.

    Metadata

    LTI

    Leeromgevingen die gebruik maken van LTI kunnen Wikiwijs arrangementen en toetsen afspelen en resultaten terugkoppelen. Hiervoor moet de leeromgeving wel bij Wikiwijs aangemeld zijn. Wil je gebruik maken van de LTI koppeling? Meld je aan via info@wikiwijs.nl met het verzoek om een LTI koppeling aan te gaan.

    Maak je al gebruik van LTI? Gebruik dan de onderstaande Launch URL’s.

    Arrangement

    IMSCC package

    Wil je de Launch URL’s niet los kopiëren, maar in één keer downloaden? Download dan de IMSCC package.

    Meer informatie voor ontwikkelaars

    Wikiwijs lesmateriaal kan worden gebruikt in een externe leeromgeving. Er kunnen koppelingen worden gemaakt en het lesmateriaal kan op verschillende manieren worden geëxporteerd. Meer informatie hierover kun je vinden op onze Developers Wiki.