In het Excel bestand temperatuur.xls staan onder meer de gemiddelde temperaturen in de maand juli van 1755 tot en met 2007.
In dit histogram is direct duidelijk dat temperaturen van 15,5 tot en met 18ºC vaak voorkomen, en dat gemiddelde maandtemperaturen als 14ºC of 20,5ºC ongebruikelijk zijn. In het diagram is ook de normaalkromme getekend. Je ziet dat de gemiddelde maandtemperatuur ook ongeveer normaal verdeeld is.
Zoals je al eerder zag, een histogram geeft aan hoe vaak bepaalde waarden voorkomen. Tussen 1755 en 2007 was de gemiddelde maandtemperatuur 37 keer rond de 16,5ºC (om preciezer te zijn, tussen de 16,25 en 16,75ºC). En een gemiddelde maandtemperatuur tussen de 15,75ºC en 18,25ºC kwam maar liefst in 25+37+40+26+25 = 153 jaar voor. Het totaal aantal jaren van 1755 tot 2007 was 253 jaar, dus 153 jaar is 153/253 = 60,5% van alle jaren.
De normaalkromme is goed bruikbaar om aan te geven hoe vaak bepaalde waarden voorkomen. Om met een simpel voorbeeld te beginnen: de normaalkromme is symmetrisch, en dus komen in de linkerhelft van de normaalkromme ongeveer evenveel waarden voor als in de rechterhelft. Zie figuur 21.
Je mag zeggen dat de oppervlakte onder de kromme overeen komt met hoe vaak die waarden voorkomen. Er zijn formules om de oppervlakte onder de normaalkromme uit te rekenen. De formule werkt zodanig dat de hele oppervlakte gelijk is aan 1 of 100%. Bijvoorbeeld de oppervlakte van uiterst links tot het gemiddelde van 16,9 (het gele deel in figuur 21) is 0,5.
Er zijn een paar handige waarden om te onthouden. In figuur 22 zijn die waarden speciaal aangeduid. Het zijn het gemiddelde, en waarden die van het gemiddelde afliggen op een vast aantal maal de standaardafwijking. De standaardafwijking wordt aangeduid met s.
De oppervlakte tussen en kan je gemakkelijk met je grafische rekenmachine of met MS Excel uitrekenen. Het blijkt 0,68 te zijn, dus 68% van alle waarden. En zo blijkt tussen twee standaardafwijkingen vóór het gemiddelde en twee standaardafwijkingen na het gemiddelde 95% van alle waarden te liggen. En 99% van de waarden ligt binnen drie standaardafwijkingen van het gemiddelde.
Deze waarden worden de vuistregels van de normale verdeling genoemd, en het is praktisch om die getallen uit het hoofd te kennen. Je mag deze regels namelijk ook omdraaien: niet alleen gelden de vuistregels voor elke normale verdeling, maar je mag ook zeggen dat een grootheid waarschijnlijk normaal verdeeld is als die verdeling voldoet aan de vuistregels.
68% tussen en
95% tussen en
99% tussen en
Het is dus onwaarschijnlijk om een maandtemperatuur te treffen die meer dan drie standaardafwijkingen van het gemiddelde ligt. Dat zou voor Juli neerkomen op 16,9 - 3×1,42 = 12,6ºC. Dat is tussen 1755 en 2007 ook nooit voorgekomen. Interessant genoeg is het andere uiterste (16,9 + 3×1,42 = 21,2ºC) maar liefst twee keer voorgekomen, en ook nog eens in de laatste 15 jaar, 1994 en in 2006.
Let op:
Bij Wiskunde A krijgen jullie deze vaste kansen maar tot 95% en 2 standaardafwijkingen van het gemiddelde. Er wordt dan gesteld dat voorbij de 3 standaardafwijkingen van het gemiddelde er 0 procent van de gegevens ligt. Dat is theoretisch onjuist. Sterker nog, binnen de statistiek bestaan de kansen van 0% en 100% niet. Deze kansen opschrijven bij het SE leveren dan ook nooit de punten van de vraag op. Is de kans heel klein, dan schrijf je bijv. <1% op. Is de groter dan 99%, schrijf je >99% op.