In de praktijk willen we vaak verschillende groepen met elkaar vergelijken, bijvoorbeeld mannen met vrouwen, of leerlingen met een N-profiel met een M-profiel. Om dit goed te kunnen uitvoeren, leer je in dit hoofdstuk weer een aantal nieuwe statistische begrippen:
Welke soorten statistische variabelen zijn er: discreet of continu, kwantitatief of kwalitatief, nominaal of ordinaal
Hoe kun je de kengetallen (dat zijn de centrummaten en de spreidingsmaten) gebruiken om frequentieverdelingen te typeren en te vergelijken
Met behulp van een puntenwolk of spreidingsdiagram kun je het verband tussen twee statistische variabelen onderzoeken
Paragrafen
Hieronder vind je per paragraaf een knop met een link naar het betreffende arrangement.
Bij statistisch onderzoek wil je uitspraken kunnen doen in onzekere situaties. Daarvoor moet je meestal een grote hoeveelheid gegevens analyseren. Vaak is een dataset zo uitgebreid dat je daaruit niet rechtstreeks conclusies kunt trekken. Daarom worden de data gerepresenteerd in getallen, kleinere tabellen of diagrammen.
In getallen: mediaan, kwartielen.
In kleinere tabellen: frequentietabel, kruistabel.
In diagrammen: dotplot, boxplot, staafdiagram, histogram, frequentiepolygoon, spreidingsdiagram.
Statistische variabelen
Statistische variabelen kun je verdelen in kwalitatieve en kwantitatieve variabelen.
Een kwalitatieve variabele beschrijft van elk element van de populatie een bepaald kenmerk dat niet noodzakelijk in een getal wordt uitgedrukt, bijvoorbeeld: het geslacht, de kleur ogen, de bloedgroep, de naam, enzovoorts.
Kwalitatieve variabelen waarbij je een logische volgorde aan kunt wijzen noem je ordinaal. Wanneer er geen logische volgorde is, dan noem je de variabele nominaal.
Een kwantitatieve variabele wordt wel in een getal uitgedrukt, zoals de lengte, de hoogte van het inkomen, de omvang van het gezin, enzovoorts. Kwantitatieve variabelen kun je verdelen in discreet en continu.
Een variabele die alleen bepaalde waarden kan aannemen en niet alle tussenliggende waarden heet discreet. Een voorbeeld is het aantal kinderen in een gezin.
Als wel alle tussenliggende waarden mogelijk zijn, ofwel als een variabele alle waarden binnen een interval kan aannemen, heet de variabele continu. Voorbeelden zijn lengte en gewicht.
Frequentieverdeling
In een groep letten we op een zekere eigenschap (variabele). Die eigenschap kan bijvoorbeeld vier waarden hebben. De groep is verdeeld over de vier waarden: elke waarde komt een zeker aantal keren voor. We spreken dan van een frequentieverdeling.
Frequentietabel
In een frequentietabel staat hoe vaak de verschillende scores op een variabele voorkomen. Om groepen van ongelijke grootte beter te kunnen vergelijken, zetten we (absolute) frequenties om naar relatieve frequenties. In formule: \({\text{relatieve frequentie (in % )}} = \frac{{{\text{frequentie}}}}{{{\text{totaal aantal}}}}( \cdot 100{\text{% }})\)
Een cumulatieve (relatieve) frequentie van een score is de (relatieve) frequentie van die score plus die van alle lagere waarden (in procenten).
Staafdiagram, histogram
In een staafdiagram worden de (relatieve) frequenties van de scores uitgezet als losse staven. Een histogram is een staafdiagram bij een continue variabele (de scores kunnen in principe alle getallen in een interval aannemen); de staven staan tegen elkaar. De scores zijn ingedeeld in klassen. In de praktijk proberen we het aantal klassen te beperken tot zo'n \(8\) à \(12\) klassen. Het is gemakkelijk als alle klassen (op misschien begin of eind na) even breed zijn. De keuze voor een klassenbreedte heeft invloed op het histogram.
Frequentiepolygoon en boxplot
Als in een histogram de klassen allemaal even breed zijn, gaat het eigenlijk alleen maar om de hoogte van de staven. Als je die hoogte met een stip (in het midden van de staaf: het klassenmidden) aangeeft, dan kan de rest achterwege blijven. Deze stippen worden dan verbonden door rechte lijntjes. Aan het begin en aan het eind worden lijntjes naar de horizontale as getekend, ook weer met als horizontale stap één klassenbreedte. Het diagram dat op deze wijze ontstaat, noemen we een frequentiepolygoon. Een frequentiepolygoon is dus een lijndiagram die de (relatieve) frequenties met elkaar verbindt. Bij een somfrequentiepolygoon (ook vaak cumulatieve frequentiepolygoon genoemd) zijn de (relatieve) cumulatieve frequenties in een lijngrafiek gezet. Daaruit kun je bij een waarde aflezen hoeveel procent van de data een kleinere of gelijke waarde heeft.
Let op: bij een somfrequentiepolygoon staan de stippen altijd boven de rechter grens van een klasse; daarentegen staan bij een gewoon frequentiepolygoon de stippen boven de klassenmiddens.
Als je de uiterste waarden, de mediaan en het eerste en derde kwartiel kent, kun je een boxplot maken.
Kengetallen
Het gemiddelde, de mediaan en de modus zijn kengetallen voor het midden (het centrum) van een groep getallen. Ze worden daarom centrummaten genoemd.
Bij de mediaan is dat letterlijk zo. Als je de getallen naar grootte ordent, is de mediaan het \(50\)-percentiel: het middelste getal of (bij een even aantal getallen) het gemiddelde van de middelste twee getallen.
De modus is de meest voorkomende waarneming.
Het gemiddelde is de som van de scores gedeeld door hun aantal.
Naast bovenstaande kengetallen voor het centrum zijn er ook kengetallen voor de spreiding van een groep getallen.
De meest eenvoudige spreidingsmaat is de spreidingsbreedte: het verschil tussen de grootste waarneming en de kleinste waarneming.
Een andere maat voor de spreiding is de kwartielafstand:
derde kwartiel (Q3) − eerste kwartiel (Q1).
Een uitschieter is een waarde die meer dan \(1,5\) keer de kwartielafstand onder het eerste kwartiel of boven het derde kwartiel zit.
De vorm van een frequentieverdeling
Bij de vorm van een frequentieverdeling let je op:
∙ de symmetrie;
∙ een staart;
∙ de scheefheid;
∙ de uitschieters;
∙ het aantal toppen;
∙ de gelijkmatigheid.
Bij een symmetrische verdeling vallen modus, mediaan en gemiddelde vrijwel samen.
De keuze voor een centrum- of spreidingsmaat is afhankelijk van de vorm van een frequentieverdeling.
Kruistabel en spreidingsdiagram
Wanneer je in een databestand zoekt naar relaties tussen twee statistische variabelen gebruik je een kruistabel of een spreidingsdiagram (puntenwolk).
In een kruistabel worden twee variabelen tegen elkaar uitgezet. Er staan de frequenties of de relatieve frequenties in waarin de combinaties van scores voorkomen.
Bij een kruistabel kun je de percentages op twee manieren uitrekenen en met elkaar vergelijken.
Je kunt per kolom de percentages uitrekenen. Onderaan in de kolommen kom je dan op \(100\%\) uit. Deze percentages vergelijk je dan horizontaal met elkaar. Dit heet verticaal percenteren.
Je kunt ook per rij de percentages berekenen. Rechts aan het eind van de rijen krijg je \(100\%\). Deze percentages vergelijk je dan verticaal met elkaar. Dit heet horizontaal percenteren.
Om het statistisch verband tussen twee kwantitatieve variabelen te onderzoeken, wordt meestal gebruik gemaakt van een spreidingsdiagram (puntenwolk). Afhankelijk van de vorm van de puntenwolk kun je vaststellen of er een statistisch verband tussen de variabelen is en zo ja of dat verband sterk is.
Met behulp van een puntenwolk of een kruistabel kun je vaststellen of er een statistisch verband is. Er is sprake van een causaal verband (oorzakelijk verband) als er sprake is van oorzaak en gevolg.
Diagnostische toets
Eindtoets over het thema; in principe de zelftoets.
Je gaat nu een aantal gevarieerde opgaven maken waarin je kunt laten zien of je de geleerde stof uit de voorgaande paragrafen beheerst.
Dit zijn voorbeeldopgaven die een goed beeld geven van de opgaven die in een eindtoets over dit thema voor kunnen komen.
Als je een score van 70% haalt, heb je een voldoende.
Het arrangement Thema: Statistiek 2 - 4H Wiskunde A is gemaakt met
Wikiwijs van
Kennisnet. Wikiwijs is hét onderwijsplatform waar je leermiddelen zoekt,
maakt en deelt.
Dit lesmateriaal is gepubliceerd onder de Creative Commons Naamsvermelding-GelijkDelen 4.0 Internationale licentie. Dit houdt in dat je onder de voorwaarde van naamsvermelding en publicatie onder dezelfde licentie vrij bent om:
het werk te delen - te kopiëren, te verspreiden en door te geven via elk medium of bestandsformaat
het werk te bewerken - te remixen, te veranderen en afgeleide werken te maken
voor alle doeleinden, inclusief commerciële doeleinden.
Dit thema is ontwikkeld door auteurs en medewerkers van de Wageningse Methode.
Fair Use
In de Stercollecties van VO-content wordt gebruik gemaakt van beeld- en filmmateriaal dat beschikbaar is op internet. Bij het gebruik zijn we uitgegaan van fair use. Meer informatie: Fair use
Mocht u vragen/opmerkingen hebben, neem dan contact op via de helpdesk VO-content.
Aanvullende informatie over dit lesmateriaal
Van dit lesmateriaal is de volgende aanvullende informatie beschikbaar:
Toelichting
Deze les valt onder de arrangeerbare leerlijn van de Stercollectie voor wiskunde A voor havo leerjaar 4. Dit is thema ’Statistiek 2'.
In de praktijk willen we vaak verschillende groepen met elkaar vergelijken, bijvoorbeeld mannen met vrouwen, of leerlingen met een N-profiel met een M-profiel. Om dit goed te kunnen uitvoeren, leer je in dit hoofdstuk weer een aantal nieuwe statistische begrippen.
Leerniveau
HAVO 4;
Eindgebruiker
leerling/student
Moeilijkheidsgraad
gemiddeld
Trefwoorden
arrangeerbaar, havo 4, m-profiel, n-profiel, statistiek, stercollectie, wiskunde a
Deze les valt onder de arrangeerbare leerlijn van de Stercollectie voor wiskunde A voor havo leerjaar 4. Dit is thema ’Statistiek 2'.
In de praktijk willen we vaak verschillende groepen met elkaar vergelijken, bijvoorbeeld mannen met vrouwen, of leerlingen met een N-profiel met een M-profiel. Om dit goed te kunnen uitvoeren, leer je in dit hoofdstuk weer een aantal nieuwe statistische begrippen.