Verschillen tussen groepen of data over groepen kun je berekenen met percentages en weergeven in verschillende vormen.
Vormen zoals: een staafdiagram, een histogram, een reepdiagram, een lijngrafiek, een cumulatief frequentiepolygoon, een dotplot, een boxplot en een steelbladdiagram.
In deze paragraaf maak je kennis met deze verschillende manieren om data in beeld te brengen.
Een lijngrafiek zoals hierboven heet een cumulatieve frequentiepolygoon. Polygoon betekent letterlijk veelhoek. Je tekent die door de losse punten (hier bij de cumulatieve percentages) te verbinden. Je krijgt zodoende in het algemeen een grafiek met knikken.
Cumulatieve frequentiepolygonen
Histogram, cumulatief frequentiepolygoon, boxplot
We gaan het gemiddelde rapportcijfer van de A/C- en de B-leerlingen vergelijken, bij de overgang van klas 3 naar klas 4. Dit gemiddelde is op één decimaal afgerond.
We gaan deze data op allerlei manieren weergeven:
met een dotplot
met een staafdiagram
met een histogram
met een cumulatief frequentiepolygoon
met een boxplot
Histogram
De gegevens uit de dotplot kun je verwerken in een staafdiagram of een histogram.
Staafdiagrammen
De hoogte van een staaf (zie figuur 1 en 2) geeft aan hoe vaak de betreffende score voorkwam. De staafdiagrammen maken je niet veel wijzer over de verschillen tussen beide groepen.
Vergelijking histogram en staafdiagram
Opmerking:
De begrippen staafdiagram en histogram lijken veel op elkaar. Omdat het gemiddelde cijfer in principe
alle waarden kan aannemen tussen 1 en 10, heb je hier te maken met een continue variabele. In de
praktijk gebruik je een histogram alleen bij continue variabelen. In alle andere gevallen maak je een
staafdiagram met losse staven; de variabele neemt dan alleen losse waarden aan, zoals 7,5 ; 7,6 ; 7,7 ; enzovoort.
“Histogram” is afgeleid uit het Grieks: histos = balk, graphein = schrijven.
Tip
Afhankelijk van de situatie zorg je ervoor dat er niet teveel (minder dan 10) en niet te weinig (ten minste 5)
klassen zijn.
Cumulatieve relatieve frequentiepolygonen
Uitgaan van histogrammen
Kwartielen
Boxplots
Een andere manier om naar de gegevens te kijken is de volgende. Deel de populatie in in vier gelijke stukken (kwarten). Zet daarvoor eerst alle data op volgorde van grootte. Als voorbeeld nemen we de gemiddelde cijfers in de A/C-groep. Dat zijn er 43:
6,0 ; 6,0 ; 6,1 ; 6,5 ; 6,5 ; 6,5 ; 6,5 ; 6,5 ; 6,5 ; 6,6 ; 6,6 ; 6,8 ; 6,8 ; 6,8 ; 6,9 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,2 ; 7,3 ; 7,3 ; 7,3 ; 7,5 ; 7,5 ; 7,5 ; 7,5 ; 7,5 ; 7,6 ; 7,8 ; 7,8 ; 8,0
Deze verzameling cijfers verdeel je in twee gelijke helften van elk 21 cijfers. Het middelste cijfer is 7,0; dat is hierboven vet gemaakt. Links daarvan staan \(\small 50\%\) van de data en rechts daarvan ook. Dit is de mediaan van de cijfers. Bij een even aantal cijfers zijn er twee middelsten. In dat geval nemen we het gemiddelde van die middelsten; dat is dan de mediaan.
De mediaan verdeelt de cijfers in twee even grote helften.
Op dezelfde manier bepaal je het middelste cijfer van de linkerhelft en ook van de rechterhelft. Die zijn ook vet: 6,6 en 7,3. Dat zijn de zogenaamde kwartielen. 6,6 is het eerste kwartiel, 7,3 is het derde kwartiel. Het tweede kwartiel is de mediaan. De kwartielen verdelen de verzameling van alle data dus in vier gelijke stukken; elk van (ruwweg) \(\small 25\%\).
Opmerking:
Het gaat hier om een globale verdeling; kwartielen worden gebruikt voor grote databestanden.
Dan doet het er niet toe of je de mediaan zelf wel of niet mee laat doen bij de kleinste helft om
het eerste kwartiel te bepalen.
Voorbeeld: het eerste kwartiel van de lengtes van Nederlandse 18-jarige jongens is 178,4 cm;
dat betekent dat \(\small 25\%\) van de Nederlandse 18-jarige jongens korter dan 178,4 cm is en \(\small 75\%\)
langer dan 178,4 cm. Niemand is exact 178,4 cm; de precieze lengte van 178,4 cm is niet
interessant.
Om misverstanden te voorkomen zullen we de volgende afspraak gebruiken:
het eerste kwartiel is de mediaan van de linkerhelft, exclusief de eventuele middelste score,
het derde kwartiel is de mediaan van de rechterhelft, exclusief de eventuele middelste score.
Boxplot
Tussen het eerste en het derde kwartiel zit de helft van de scores. De afstand van het eerste en derde kwartiel heet kwartielafstand. Dat is de breedte van de box.
Als de kwartielafstand groot is, is de spreiding van de scores dat ook, d.w.z. de scores liggen dan ver uit elkaar.
Steelbladdiagram
Opmerking:
In paragraaf 9 en 10 vind je een computerpracticum en een onderzoek dat je nu kunt doen.
Dit lesmateriaal is gepubliceerd onder de Creative Commons Naamsvermelding-GelijkDelen 4.0 Internationale licentie. Dit houdt in dat je onder de voorwaarde van naamsvermelding en publicatie onder dezelfde licentie vrij bent om:
het werk te delen - te kopiëren, te verspreiden en door te geven via elk medium of bestandsformaat
het werk te bewerken - te remixen, te veranderen en afgeleide werken te maken
voor alle doeleinden, inclusief commerciële doeleinden.
Leeromgevingen die gebruik maken van LTI kunnen Wikiwijs arrangementen en toetsen afspelen en resultaten
terugkoppelen. Hiervoor moet de leeromgeving wel bij Wikiwijs aangemeld zijn. Wil je gebruik maken van de LTI
koppeling? Meld je aan via info@wikiwijs.nl met het verzoek om een LTI
koppeling aan te gaan.
Maak je al gebruik van LTI? Gebruik dan de onderstaande Launch URL’s.
Arrangement
IMSCC package
Wil je de Launch URL’s niet los kopiëren, maar in één keer downloaden? Download dan de IMSCC package.
Wikiwijs lesmateriaal kan worden gebruikt in een externe leeromgeving. Er kunnen koppelingen worden gemaakt en
het lesmateriaal kan op verschillende manieren worden geëxporteerd. Meer informatie hierover kun je vinden op
onze Developers Wiki.