1.1 - Grafieken en variatie

Een belangrijke factor binnen de statistiek is de variatie die er is binnen de verzamelde gegevens. We spreken van variatie als niet alle waarden hetzelfde zijn. De standaardafwijking is een veelgebruikte maat voor variatie. Hier komen we later op terug.

Een ander factor die een belangrijke rol speelt in statistische vraagstukken is het verschil. Dit is het verschil in gemiddelde dat er daadwerkelijk is tussen twee populaties. Je kunt je voorstellen dat als dit verschil tussen populaties erg klein is, het moeilijker is om er zeker van te zijn dat een verschil tussen twee steekproeven van deze populaties per toeval tot stand is gekomen. Als het verschil erg groot is, wordt dit makkelijker.

De derde belangrijke factor die een grote rol speelt is de steekproefgrootte. Als je van alle mannen en vrouwen de lengte meet en deze twee groepen vergelijkt, is de kans veel groter dat je een betrouwbare conclusie kunt trekken dan als je dit alleen maar doet in je eigen klas, de rol van toeval wordt kleiner naarmate een steekproef groter wordt. Als je geen inzicht hebt in al deze drie factoren wordt het erg moeilijk een betrouwbare conclusie te trekken over de gegevens. Zonder de aanwezige variatie mee nemen in je conclusie kan het zijn dat je onterecht zegt dat er een verschil is tussen groepen of een toename in de tijd van iets wat je gemeten hebt. Het kan ook zijn dat je onterecht concludeert dat er geen verschil is. Als je wilt toetsen of een nieuw medicijn negatieve bijwerkingen heeft is dat bijvoorbeeld erg belangrijk.

Om deze drie invloeden duidelijk te maken volgen een paar voorbeelden.

Figuur 1

Figuur 2

In figuur 2 zie je twee grafieken, figuur 2a is als figuur 1, de figuur 2b  heeft ook een indicatie voor hoe groot de variatie is (de foutbalken = standaardafwijking). Je ziet dat figuur 2b iets van informatie geeft over de spreiding. Het lijkt alsof de foutbalk bij de mannen korter is dan bij de vrouwen, wat kan betekenen dat binnen mannen er minder variatie is in lengte. Maar dit kan ook toeval zijn. Wat zou je zeggen over de betrouwbaarheid van het verschil tussen de mannen en vrouwen?

Figuur 3

Figuur 4

Dit zijn voorbeelden geweest voor het vergelijken van groepen. Je kunt echter ook soms een reeks getallen onderzoeken en kijken of deze toe- of afneemt. Het analyseren van dit soort gegevens komt later aan bod in de module, maar ze zijn erg handig om het effect van steekproefgrootte aan te geven. Je hebt ook gezien dat de presentatie van de gegevens cruciaal is voor het trekken van goede conclusies. We komen hier nog vaker op terug.

Figuur 5