Als je van een steekproef van een populatie een gemiddelde berekent is de kans groot dat als je weer een steekproef neemt van dezelfde populatie dat gemiddelde niet precies hetzelfde is.
Je ziet bijvoorbeeld in de figuur hieronder de waarde van een gemiddelde van een populatie van 10.000 personen (de rode stip) en de gemiddeldes van 100 steekproeven van 20 personen (de zwarte stippen.
Als het goed is zie je dat niet al die gemiddelde gelijk zijn. Er is dus een bepaalde fout als je een gemiddelde berekent van een steekproef. Deze fout wordt door twee zaken beïnvloed.
Dat zijn dus precies de twee belangrijkste concepten van hoofdstuk 1!
Als de variatie van de populatie groot is, zullen er per toeval steeds verschillende waarden in je steekproef terecht komen. Je ziet hieronder twee figuren waarbij hetzelfde gebeurt als bij de figuur hierboven. Alleen nu is links de standaardafwijking groot (12), en rechts is hij klein (3).
In het 1e figuur van deze paragraaf was overigens de standaardafwijking 6.
Je ziet dat een grotere standaardafwijking in de populatie dus meer variatie oplevert in het gemiddelde van de steekproef. Nu de steekproefgrootte.
Je ziet hieronder weer twee figuren. De standaardafwijking is bij beiden 6. Nu is alleen links de steekproefgrootte 10, en rechts is hij 30 (en hierboven was het steeds 20).
Je ziet: een kleinere steekproef levert meer variatie op in het gemiddelde van die steekproef.
Deze fout van het gemiddelde noemen we de standaardfout (in het Engels standard error, (s.e.)). Deze standaardfout wordt vaak getoond bij een gemiddelde. Hoe bereken je nu die standaardfout?
Heel makkelijk.
Je pakt de standaardafwijking van de populatie en deelt deze door de wortel van de steekproef (let op: dit geldt alleen voor normaal verdeelde gegevens).
Meestal weet je echter niet de standaardafwijking van de populatie (), maar alleen die van de steekproef (
). Je mag dan het volgende doen:
(dit lijkt hetzelfde, maar het is het niet. Voor jullie is het onderscheid op dit moment niet megabelangrijk)
De standaardfout geeft dus aan hoe zeker je ervan bent dat het gemiddelde uit jouw steekproef een betrouwbare indruk geeft van de populatie. Belangrijk om te beseffen is dat de standaardafwijking van je populatie niet verandert als je een grotere steekproef neemt, maar je standaardfout wel!
Daarom is het vaak in grafieken beter om op de foutbalken de standaardfout te tonen i.p.v. de standaardafwijking. Het bevat namelijk zowel informatie van de standaardafwijking als van de steekproefgrootte. Je ziet hieronder hoe je dat weergeeft (we gebruiken de eerdere steekproeven van 10 en 30). Ter vergelijking hebben we in het rood ook nog even de standaardafwijking van beiden erin getekend.