Kijkend naar een representatie valt meestal al snel op hoe de verdeling van frequenties over de verschillende waarden eruit ziet. Zitten de meeste scores juist bij de kleinste waarden of bij de grootste? Of zitten de meeste op een kluitje in het midden? Of nog weer anders?
In deze paragraaf leer je frequentieverdelingen typeren met behulp van kengetallen. Dat doe je al vaak onbewust, bijvoorbeeld:
klas A heeft gemiddeld een \(5,8\), terwijl klas B gemiddeld een \(7\) heeft;
het gemiddelde inkomen in land A is veel lager dan het gemiddelde inkomen in land B;
speler A is veel constanter in zijn spel dan speler B.
Bij het typeren van een frequentieverdeling spelen ten minste twee aspecten een belangrijk rol: de ligging (het centrum) en de spreiding.
Opgaven
Herhaling centrum- en spreidingsmaten
Inkomen van een dorp
Centrummaten
Het gemiddelde, de mediaan en de modus zijn kengetallen voor het midden van een groep getallen. Ze geven aan waar het centrum van een 'berg' cijfers ongeveer ligt. Ze worden daarom centrummaten genoemd.
Bij de mediaan is dat letterlijk zo. De mediaan is de waarde die de op volgorde gezette scores van een variabele in twee helften verdeelt: 50% van de scores heeft een waarde die kleiner is dan de mediaan en 50% een waarde die groter is dan de mediaan. Bij een oneven aantal scores is de mediaan de middelste score, bij een even aantal scores het gemiddelde van de middelste twee scores.
De modus is de meest voorkomende waarneming.
Het gemiddelde is de som van de scores gedeeld door hun aantal. Het gemiddelde is het evenwichtspunt van een verdeling.
Dotplots bij lengtes van jongens en meisjes (2)
Boxplot
Je kunt een dataset in vieren verdelen met in elk deel \(25\%\) van de scores. De waarden die geordende scores in vier opeenvolgende kwarten verdelen, noemen we de kwartielen: het eerste kwartiel (Q1), de mediaan (het tweede kwartiel) en het derde kwartiel (Q3).
Een boxplot maakt de opdeling van een geordende dataset in kwarten zichtbaar. Het gebied tussen Q1 en Q3 noemen we de box. In de box zit de helft (\(50\%\)) van de scores. De afstand tussen Q1 en Q3 noem we de kwartielafstand.
In de bovenstaande boxplot bij de lengte van de \(154\) leerlingen uit havo 4 lees je af dat:
de minimale lengte \(156\) cm is;
de maximale lengte \(200\) cm is;
de mediaan \(173\) cm is;
het eerste kwartiel (Q1) \(167\) cm is;
het derde kwartiel (Q3) \(180\) cm is.
Uit de boxplot lezen we eenvoudig af dat Wouter - met zijn lengte van \(184\) cm - tot de \(25\%\) langste leerlingen uit de dataset behoort.
Dotplots bij lengtes van jongens en meisjes (3)
Dataset Gegevens154Leerlingen (7)
Naast kengetallen voor het centrum zijn er ook kengetallen voor de spreiding van een ‘berg’ cijfer: de spreidingsmaten.
De meest eenvoudige spreidingsmaat is de spreidingsbreedte: het verschil tussen de grootste waarneming en de kleinste waarneming.
Een andere maat voor de spreiding is de kwartielafstand:
derde kwartiel (Q3) − eerste kwartiel (Q1).
Opmerking:
In hoodstuk 3 Statistiek 1 heb je ook de standaardafwijking leren kennen. Dit is de meest gebruikte spreidingsmaat. In het volgende hoofdstuk statistiek komt de standaardafwijking weer aan bod.
Bedrijf met 120 werknemers
Aantal geboorten in ziekenhuizen
De vorm van frequentieverdelingen
Bij een statistische variabele als de lengte van topsporters is de frequentieverdeling afhankelijk van de sport, zo zijn bijvoorbeeld basketballers en volleyballers vaak lang en jockeys veelal klein. De vorm van de frequentieverdeling vertelt je iets over de sport.
Bij de vorm van een frequentieverdeling let je op:
de symmetrie;
de scheefheid;
het aantal toppen;
een staart waarin een verdeling uitloopt;
de uitschieters;
de gelijkmatigheid (vrijwel gelijke frequenties).
Dotplots bij een vijftal datasets
Vier grote databestanden
Kengetallen en vorm
Dotplot bij de lengte van jongens
Profielkeuzes van de groep
Het nut van een centrum- of spreidingsmaat is afhankelijk van de vorm van een frequentieverdeling. Als de scores redelijk bij elkaar liggen, wordt vaak voor het gemiddelde als centrummaat gekozen. Maar het gemiddelde en ook de spreidingsbreedte zijn gevoelig voor uitschieters en (lange) staarten. In zulke gevallen kun je beter de mediaan en kwartielafstand kiezen om je frequentieverdeling mee te typeren. De modus - een centrummaat die eenvoudig te berekenen is - geeft over het algemeen een goed beeld van het centrum bij symmetrische en meertoppige verdelingen. Echter, als bij een meertoppige verdeling de hoogste top - de modus dus - in de staart zit, dan is de modus weer geen zinvolle centrummaat om de frequentieverdeling mee te typeren.
In onderstaand overzicht vind je de voor- en nadelen van de in dit hoofdstuk behandelde centrum- en spreidingsmaten.
centrummaten
voordelen
nadelen
modus
eenvoudig te berekenen
geeft vaak bij symmetrische en meertoppige verdelingen een goede karakterisering
klassenindeling is van invloed
erg onstabiel
niet altijd aanwezig
mediaan
vrij eenvoudig te berekenen
weinig gevoelig voor extreme scores
slechts gebaseerd op volgorde, niet op de grootte van de onderlinge verschillen
gemiddelde
meest gebruikte centrummaat
alle scores worden gebruikt
minder eenvoudig te berekenen
vrij gevoelig voor extreme scores
spreidingsmaten
voordelen
nadelen
spreidingsbreedte
zeer eenvoudig te berekenen
slechts twee waarnemingen worden gebruikt
erg gevoelig voor uitschieters
neemt in het algemeen toe bij een groter aantal scores
kwartielafstand
vrij eenvoudig te berekenen
weinig gevoelig voor extreme scores
slechts gebaseerd op volgorde, niet op de grootte van de onderlinge verschillen
Het arrangement Frequentieverdelingen typeren is gemaakt met
Wikiwijs van
Kennisnet. Wikiwijs is hét onderwijsplatform waar je leermiddelen zoekt,
maakt en deelt.
Dit lesmateriaal is gepubliceerd onder de Creative Commons Naamsvermelding-GelijkDelen 4.0 Internationale licentie. Dit houdt in dat je onder de voorwaarde van naamsvermelding en publicatie onder dezelfde licentie vrij bent om:
het werk te delen - te kopiëren, te verspreiden en door te geven via elk medium of bestandsformaat
het werk te bewerken - te remixen, te veranderen en afgeleide werken te maken
voor alle doeleinden, inclusief commerciële doeleinden.
Van dit lesmateriaal is de volgende aanvullende informatie beschikbaar:
Toelichting
Deze les valt onder de arrangeerbare leerlijn van de Stercollectie voor wiskunde A voor havo leerjaar 4. Dit is thema ’Statistiek 2'. Het onderwerp van deze les is: frequentieverdeling typeren.
In deze paragraaf leer je frequentieverdelingen typeren met behulp van kengetallen.
Leerniveau
HAVO 4;
Eindgebruiker
leerling/student
Moeilijkheidsgraad
gemiddeld
Studiebelasting
4 uur en 0 minuten
Trefwoorden
arrangeerbaar, frequentieverdeling, havo 4, kengetallen, stercollectie, wiskunde a
Deze les valt onder de arrangeerbare leerlijn van de Stercollectie voor wiskunde A voor havo leerjaar 4. Dit is thema ’Statistiek 2'. Het onderwerp van deze les is: frequentieverdeling typeren.
In deze paragraaf leer je frequentieverdelingen typeren met behulp van kengetallen.
Leeromgevingen die gebruik maken van LTI kunnen Wikiwijs arrangementen en toetsen afspelen en resultaten
terugkoppelen. Hiervoor moet de leeromgeving wel bij Wikiwijs aangemeld zijn. Wil je gebruik maken van de LTI
koppeling? Meld je aan via info@wikiwijs.nl met het verzoek om een LTI
koppeling aan te gaan.
Maak je al gebruik van LTI? Gebruik dan de onderstaande Launch URL’s.
Arrangement
IMSCC package
Wil je de Launch URL’s niet los kopiëren, maar in één keer downloaden? Download dan de IMSCC package.
Wikiwijs lesmateriaal kan worden gebruikt in een externe leeromgeving. Er kunnen koppelingen worden gemaakt en
het lesmateriaal kan op verschillende manieren worden geëxporteerd. Meer informatie hierover kun je vinden op
onze Developers Wiki.