Als je grotere datasets te pakken kunt krijgen is dat vaak een goudmijn om te kunnen analyseren. Er zit veel informatie in en die moet je er alleen nog evenuit weten te halen. Er zijn diverse databanken online te vinden zoals bijv: https://opendata.cbs.nl/statline/portal.html?_la=nl&_catalog=CBS
of https://waves.databank.nl/. Vaak als je via zo'n portal data download zijn er veel variabelen op een ingewikkelde manier gecodeerd. Er zijn vaak 10-tallen kolommen met niet zulke duidelijk namen, en binnen kolommen zijn vaak groepen weergegeven met coderingen met nummers waar je niet zo maar van kan zien wat het is. Het kan bijv. zijn dat de codering binnen zo'n dataset voor mannen niet 'mannen' is, maar '3000'. En voor vrouwen dan '4000'.
Om daar wijs uit te worden is er vaak de metadata. Dat is een bestand dat uitlegt hoe de data gelezen moeten worden. Zonder de metadata te begrijpen kun je de data niet begrijpen en analyseren!