Wat is statistiek?
Statistiek is het vakgebied dat zich bezighoudt met het verzamelen, bewerken, interpreteren en presenteren van gegevens. Een statistisch onderzoek start met een (onderzoeks)vraag die met statistische gegevens kan worden beantwoord. Vervolgens wordt de populatie (de doelgroep waar het onderzoek over gaat) vastgesteld en wordt nagegaan op welke statistische variabelen het onderzoek betrekking heeft. Statistische variabelen kun je verdelen in kwalitatieve en kwantitatieve variabelen.
-
Een kwalitatieve variabele beschrijft van elk element van de populatie een bepaald kenmerk dat niet noodzakelijk in een getal wordt uitgedrukt, bijvoorbeeld: het geslacht, de kleur ogen, de bloedgroep, de naam, enzovoorts.
-
Een kwantitatieve variabele wordt wel in een getal uitgedrukt, zoals de lengte, de hoogte van het inkomen, de omvang van het gezin, enzovoorts.
Vervolgens verzamelt de statisticus (iemand die statistisch onderzoek) de bij de statistische variabelen passende data (de statistische gegevens). Vaak is de hoeveelheid data zo groot, dat daaruit niet rechtstreeks conclusies getrokken kunnen worden. Daarom worden de data gerepresenteerd in tabellen (zoals een frequentietabel), in diagrammen (bijvoorbeeld een histogram, frequentiepolygoon of boxplot) of in getallen (zoals het gemiddelde en de standaardafwijking).
Frequentietabel
In een frequentietabel staat hoe vaak de verschillende scores op een variabele voorkomen.
De relatieve frequentie van een score is het percentage van het totaal waarin de score voorkomt.
In formule: \({\text{relatieve frequentie (in % )}} = \frac{{{\text{frequentie}}}}{{{\text{totale aantal}}}}( \times 100{\text{% }})\).
Een cumulatieve (relatieve) frequentie van een score is de (relatieve) frequentie van die score plus die van alle lagere waarden (in procenten).
Mediaan en kwartielen
De mediaan is de waarde die de op volgorde gezette scores van een variabele in twee helften verdeelt: \(50\%\) van de scores heeft een waarde die kleiner is dan de mediaan en \(50\%\) een waarde die groter is dan de mediaan. De kwartielen zijn de waarden die de geordende scores in vier opeenvolgende kwarten verdelen. Bij een oneven aantal is de mediaan de middelste waarneming, bij een even aantal het gemiddelde van de middelste twee waarnemingen.
Data in beeld
In een histogram worden de (relatieve) frequenties van de scores uitgezet als staven. De scores zijn ingedeeld in klassen. In de praktijk proberen we het aantal klassen te beperken tot zo'n \(8\) à \(12\) klassen. Het is gemakkelijk als alle klassen (op misschien begin of eind na) even breed zijn. De keuze voor een klassenbreedte heeft invloed op de histogram.
Als in een histogram de klassen allemaal even breed zijn, gaat het eigenlijk alleen maar om de hoogte van de staven. Als je die hoogte met een stip (in het midden van de staaf: het klassenmidden) aangeeft, dan kan de rest achterwege blijven. Deze stippen worden dan verbonden door rechte lijntjes. Aan het begin en aan het eind worden lijntjes naar de horizontale as getekend, ook weer met als horizontale stap één klassenbreedte. Het diagram dat op deze wijze ontstaat, noemen we een frequentiepolygoon. Een frequentiepolygoon is dus een lijndiagram die de (relatieve) frequenties met elkaar verbindt.
Bij een somfrequentiepolygoon (ook vaak cumulatieve frequentiepolygoon genoemd) zijn de (relatieve) cumulatieve frequenties in een lijngrafiek gezet. Daaruit kun je bij een waarde aflezen hoeveel procent van de data een kleinere of gelijke waarde heeft.
Let op: bij een somfrequentiepolygoon staan de stippen altijd boven de rechter grens van een klasse; daarentegen staan bij een gewoon frequentiepolygoon de stippen boven de klassenmiddens.
Als je de uiterste waarden, de mediaan en het eerste en derde kwartiel kent, kun je een boxplot maken.
Kengetallen
Het gemiddelde, de mediaan en de modus zijn kengetallen voor het midden (het centrum) van een groep getallen. Ze worden daarom centrummaten genoemd.
-
Bij de mediaan is dat letterlijk zo. Als je de getallen naar grootte ordent, is de mediaan het \(50\)-percentiel: het middelste getal of (bij een even aantal getallen) het gemiddelde van de middelste twee getallen.
-
De modus is de meest voorkomende waarneming.
-
Het gemiddelde is de som van de getallen gedeeld door hun aantal.
Naast bovenstaande kengetallen voor het centrum zijn er ook kengetallen voor de spreiding van een groep getallen.
-
De meest eenvoudige spreidingsmaat is de spreidingsbreedte: het verschil tussen de grootste waarneming en de kleinste waarneming.
-
Een andere maat voor de spreiding is de kwartielafstand:
derde kwartiel (Q3) − eerste kwartiel (Q1).
-
Een derde maat voor de spreiding is de gemiddelde afwijking ten opzichte van het gemiddelde.
De gemiddelde afwijking wordt berekend door de afwijkingen (altijd een positief getal) t.o.v. het gemiddelde van alle waarnemingen op te tellen en vervolgens te delen door het aantal waarnemingen.
-
De gemiddelde afwijking wordt in de statistiek niet vaak gebruikt omdat het rekenwerk en de rekenregels daarbij nogal gecompliceerd zijn. Deze rekenregels worden eenvoudiger als je de afwijkingen kwadrateert. Het gemiddelde van deze kwadraten is de variantie.
-
Om dit kwadrateren weer op te heffen, wordt van de variantie de wortel genomen. Het getal dat je dan krijgt, is de standaardafwijking, ook vaak standaarddeviatie genoemd (deviatie = afwijking). Dit is de meest gebruikte spreidingsmaat.
Voorbeeld
Ebbe noteert het aantal kinderen per gezin in de straat:
\(2, 4, 4, 0, 2, 1, 2, 2, 5, 3, 3, 3, 5, 0, 4\).
Ebbe ordent eerste de data, zie de diagram hiernaast.
Vervolgens berekent hij de centrum- en spreidingsmaten.
De modus is \(2\),
de mediaan is \(3\),
en het gemiddelde is \(2\frac{2}{3}\).
De spreidingsbreedte is \(5\),
de kwartielafstand is \(2\),
de gemiddelde afwijking is \(1\frac{{13}}{{45}}\),
de variantie is ongeveer \(2,36\),
en de standaardafwijking is ongeveer \(1,53\).
Reken dit zelf eens na.