"What is data?" van University of Guelph McLaughlin Library, 2019, CC BY-NC-SA https://youtu.be/pg12U1BAnoA
Data kan worden omschreven als de grondstof voor informatie. Op zichzelf hebben/heeft1 data geen betekenis; er is context en interpretatie nodig om de vragen wie, wat, waar en wanneer te beantwoorden, ofwel: om de data tot informatie om te vormen. Die informatie kan dan worden gebruikt om een betoog te onderbouwen en op die manier dienstbaar te zijn aan de wetenschap, openbaar bestuur of bedrijfsvoering.
Data die de onderzoeker zelf heeft verzameld, worden primaire data genoemd. Data uit andere bronnen noemen we secundair: dat zijn al bestaande data, bijvoorbeeld gevonden in een overheidsdatabase of een wetenschappelijke publicatie.
Primaire data kan op allerlei manieren tot stand komen:
observatie
meting
interviews
case studies
enquêtes
crowdsourcing (bijdragen van geïnteresseerde leken aan onderzoek).
Een andere indeling voor data is kwalitatief en kwantitatief: kwalitatieve data zijn niet numeriek; kwantitatieve data wel.
Een dataset is een verzameling van bij elkaar horende data. Zodra data open worden gepubliceerd, is dat meestal in de vorm van een dataset.
Een data paper beschrijft volgens de gebruiken binnen een wetenschappelijke discipline hoe een bepaalde online beschikbare dataset moet worden geïnterpreteerd.
Metadata zijn gegevens over data.
__________________
Noot
1.
In de traditionele betekenis is data het meervoud van datum. Een datum is 'iets dat gegeven is' en kan geteld worden (1 datum, 2 data, 3 data etc). Voorbeeld:
"zijn deze data geschikt voor iedereen?"
Wanneer in de wetenschap wordt gesproken over data, is het niet gebruikelijk data te tellen. Elke hoeveelheid ervan kan worden aangeduid als data, zowel in de enkelvouds- als de meervoudsvorm. Zo gebruikt de New York Times naast elkaar de enkelvouds- en meervoudsvorm:
"the survey data are still being analyzed"
en
"the first year for which data is available".
Deze cursus gebruikt voor data ook enkelvoud en meervoud naast elkaar.