1.3 - Gegevens

Je hebt in bovenstaande voorbeelden een hoop gegevens voorbij zien komen. We stellen bij statistiek een paar eisen aan die gegevens. De eerste is nauwkeurigheid. Als je de lengte van een persoon meet en je rondt dit af naar meters, is iedereen in de klas 2 m. Dat levert dus niet echt iets nuttigs op. Als je afrond op decimeters zal je misschien 1.5, 1.6, 1.7, 1.8, 1.9 en 2.0 krijgen als verschillende waarden. Dat is al nuttiger, maar nog steeds niet heel erg. Aan de andere kant is het afronden op millimeters erg nauwkeurig (als je zo nauwkeurig hebt kunnen meten) maar zoveel precisie is vaak niet nodig.

Een tweede eis is die van onafhankelijkheid. Dit is het makkelijkst uit te leggen d.m.v. een voorbeeld. Stel, je wilt het dieet van een groep mensen onderzoeken en je neemt enquĂȘtes af in een dorp met 300 inwoners. Als je van iedereen in dat dorp het dieet in kaart brengt heb je dus 300 meetpunten. Veel gegevens en dus betrouwbare conclusies. Of niet? Familieleden eten namelijk meestal hetzelfde, dus eigenlijk ben je dan een paar keer hetzelfde aan het meten en is het dieet van het ene gezinslid niet onafhankelijk van dat van een ander gezinslid. Is dat een probleem dan? Ja, want de hoeveelheid gegevens wordt in de statistische formules (die je later nog zal tegenkomen) gebruikt, en hoe meer gegevens des te sneller je een conclusie kunt trekken. Als je dus doet alsof je 300 onafhankelijke waarden hebt, terwijl dit er eigenlijk maar 100 zijn, stel je dus de betrouwbaarheid van je experiment te rooskleurig voor. Het probleem van de onafhankelijkheid is een van de lastigste problemen in de statistiek.

data opdracht 6