Uit paragraaf 3.1 blijkt dat we er met alleen het gemiddelde nog niet zijn om een brei aan gegevens samen te vatten. We moeten ook iets vertellen over hoe ver de gegevens uit elkaar liggen. Statistici noemen dit spreiding of variatie. We moeten een manier vinden om die spreiding te beschrijven. Statistici zeggen dat ze een maat voor de spreiding nodig hebben.
Bekijk de tabel in figuur 14 van leeftijden van patiënten eens.
De gemiddelde leeftijd is 72,8 jaar. Hoe ver liggen de gegevens uit elkaar?
Het kan zijn dat je als antwoord gaf de minimum en maximum leeftijd (38 en 91 jaar). Of met andere woorden, de leeftijden liggen verspreid tussen 38 en 91 jaar. De variatiebreedte is bruikbaar, maar het zegt niets over de andere waarden. Misschien liggen veel waarden vlakbij het gemiddelde, en maar een paar heel ver weg. Met andere woorden, uitschieters kunnen de betekenis van de variatiebreedte verminderen.
Kan je iets verzinnen om aan te geven hoe ver de leeftijden zoal afliggen van het gemiddelde?
Je zou het verschil tussen elke waarde en het gemiddelde kunnen noemen. In figuur 15 is de tabel aangevuld met deze waarden.
Het verschil is telkens het gemiddelde minus elke waarde xi oftewel - xi. Bij een negatief verschil is de xi kleiner dan en bij een positief verschil groter.
Zo’n hele lijst met verschillen is weer weinig zinvol. Maar het gemiddelde van deze verschillen dan? Dus:
gemiddeld verschil =
Intuïtief is dat een goed idee. Hoe groter het gemiddelde verschil, hoe verder de waarden uit elkaar liggen. Maar helaas, er zijn evenveel waarden boven het gemiddelde van 72,8 als er onder. De som van de “verschillen” is dus 0, en het gemiddelde verschil ook.
Dat we hier even vastlopen is eigenlijk een beetje onze eigen schuld. We waren op zoek naar de gemiddelde afstand, en daarvoor hadden we de formule bedacht. Dat uit die formule ook negatieve getallen komen is een gevolg van de formule, we wilden eigenlijk alleen maar een maat voor de afstand. De wiskundige past hier een truc toe. Je neemt de absolute waarde van het verschil (alle positieve waarden blijven positief, alle negatieve waarden worden ook positief; in formuletaal: | verschil |). Zie figuur 16.
Van deze rij verschillen kan je heel goed het gemiddelde nemen als maat voor de afstand van alle leeftijden tot de gemiddelde leeftijd. Het gemiddelde van | verschil | is de som van al die waarden, gedeeld door het aantal:
gemiddeld verschil = = 9,63 jaar
Deze maat voor de spreiding geeft netjes weer wat de gemiddelde afstand van alle waarden is tot het gemiddelde zelf.
In de statistiek gebruikt men vaak het kwadraat van de verschillen in plaats van de absolute waarden. Dat heeft tot gevolg dat waarden die verder af liggen van het gemiddelde zwaarder mee tellen. Waarden die vlakbij het gemiddelde zijn minder belangrijk dan waarden die verder weg liggen. Hoe meer ver-weg-gelegen-waarden, hoe onbetrouwbaarder het gemiddelde wordt. In figuur 17 is de tabel aangevuld met de kwadraten van de verschillen:
Daarmee komen we op de definitie van een veel gebruikte maat voor de spreiding, de variantie:
variantie = (3)
Er is nog één probleempje waar we aandacht aan moeten besteden: de eenheid van deze variantie is jaar2, dus “vierkant jaar” net zo als cm2, vierkante centimeter. Als je wilt opgeven dat de gemiddelde leeftijd 72,8 jaar is, met een spreiding van 178,4 jaar2, dan zegt je dat niet zoveel. Daarom wordt in de statistiek vaak nog de wortel genomen van de variantie. Deze maat voor de spreiding heet standaardafwijking of standaarddeviatie. Oftewel:
standaardafwijking = (4)
Deze formule stelt je in staat om te kunnen uitleggen hoe de standaardafwijking tot stand komt. Je zult echter in de praktijk niet vaak met de hand de standaardafwijking berekenen. Je moet dit wel kunnen voor de toets!
Om in MS Excel de standaardafwijking van een reeks getallen te berekenen selecteer je een lege cel en typ je in: =stdev.p(XXX:XXX).
Op de plaatsen van de XXX:XXX kun je de reeks met de muis selecteren, of de bovenste cel van de reeks intypen, gevolgd door een dubbele punt gevolgd door de onderste cel in een reeks getallen. Belangrijk hiervoor is dat al je getallen netjes onder elkaar staan. Netjes werken in een excelbestand levert dus tijdwinst op.