Les 6 Leefstijl en Gezondheid: Inleiding in de statistiek I

Statistiek I

Het Leefstijl onderzoek dat je gaat uitvoeren leidt tot verschillende gegevens. Om deze gegevens goed te analyseren kan het meerwaarde vormen als je verschillende statische methoden kunt toepassen. Dit kan leiden tot het trekken van meer betrouwbare en geldende conclusies uit je onderzoek.

 

Statistiek is de wetenschap, de methodiek en de techniek van het verzamelen, bewerken, interpreteren en presenteren van gegevens.

Statistici trachten informatie over een populatie (al dan niet abstract) te krijgen uit de waarneming van een (meestal) beperkt aantal elementen van die populatie, de steekproef. In het geval dat de steekproef de gehele populatie omvat, spreekt men van volledige telling. De zo verkregen informatie is uiteraard onvolledig en daardoor onnauwkeurig. Een goede beheersing van deze onnauwkeurigheid is dan ook een essentieel onderdeel van de statistiek. De uitkomsten kunnen voor allerlei aspecten van de wetenschap, de politiek, de economie, de gezondheidszorg, de media en de samenleving van belang zijn.

Traditioneel onderscheidt men in de statistiek de volgende deelgebieden:

Daarnaast is een soort tussenvorm van beide bovenstaande deelgebieden ontstaan:

In bijeenkomst 6 ga we in op een aantal technieken vanuit de Beschrijvende statistiek.

In bijeenkomst 7 ga we in op een aantal technieken vanuit de Verklarende statistiek. 

 

 

 

Beschrijvende statistiek: frequentiematen

 

Binnen deze module gaan we op de volgende onderdelen binnen de beschrijvende statistiek:

1. Frequentiematen

2. Centrummaten

3. Spreidingsmaten

 

1. Frequentiematen

 

Frequentie drukt uit hoe vaak iets gebeurt of voorkomt (binnen een bepaalde tijd). Iemand die vaak Google gebruikt, kan zich bijvoorbeeld een frequent gebruiker van deze site van noemen. Maar het kan preciezer. In de statistiek bijvoorbeeld wordt gezegd dat de frequentie van klaveren in een dek kaarten 13 is. Omdat er in totaal 52 kaarten zijn is de relatieve frequentie 13/52 = 0,25.

 

1. Frequentie: =  aantal keren dat een gebeurtenis voorkomt. Voorbeeld: een onderzoek naar kleur haar bij 200 jongeren (= N), 90 x blond, 30 x zwart

 

Overigens je gebruikt hoofdletter N als het gaat om een absolute populatie en kleine letter n als het gaat om een steekproef.

 

2. Relatieve frequentie (ook wel fractie of proportie genoemd): = score gedeeld door aantal waarnemingen (waardoor vergelijkingen beter mogelijk worden).  Dus 90 : 200 = 0.45.

 

Door relatieve frequentie met 100 te vermenigvuldigen krijgt men percentages : 90:200 x 100  =  45% (vermeld wel ‘n’).

 

3 .Frequentietabel

Een frequentietabel bevat een beknopte samenvatting van de uitkomsten van een onderzoek. In een frequentietabel wordt van iedere uitkomst de frequentie, de proportie of het percentage opgegeven. Afhankelijk van het doel worden soms ook cumulatieve frequenties, proporties of percentages in de tabel opgenomen.

Voorbeeld. Tien personen hebben een test afgelegd. Het aantal door hen gemaakte fouten is in een frequentietabel gezet.

FreqTab01

Bij een continue variabele is het aantal verschillende uitkomsten vaak groot. Het is dan beter de uitkomsten eerst te classificeren en de klassen en hun frequenties in een tabel onder te brengen.

 

 

Verwerkingsopdracht

 

Toets Zorg en welzijn: Ouderenzorg

Je geeft les in vmbo kaderberoepsgerichte leerweg. Aan de 3 klassen waaraan je les geeft, heb je een toets over Ouderenzorg opgegeven. Nadat je deze toets gecorrigeerd hebt, heb je volgende resultaten gekregen:

Per klas wordt aangegeven, de leerling (lln), het behaalde cijfer en of de leerlingen een jongen of meisje is.

                                                       3A                                                            3B                                     3C

Lln 1.      6        j

Lln 2.      5        j

Lln 3.      8      m

Lln 4.      7      m

Lln 5.      9      m

Lln 6.      4      m

Lln 7.      6      m

Lln 8.      7      m

Lln 9.      6      j

Lln 10.   6      m

Lln 11.   5      m

Lln 12.   8      m

Lln 13.   7      m

Lln 14.   4      m

Lln 15.   8      j

Lln 16.   6      j

 

Lln 1.      6 m

Lln 2.      5 m

Lln 3.      7 j

Lln 4.      5 m

Lln 5.      5 m

Lln 6.      5 m

Lln 7.      6 m

Lln 8.      5 j

Lln 9.      4 j

Lln 10.   8 j

Lln 11.   7 j

Lln 12.   6 j

Lln 13.   6 m

Lln 14.   5 m

Lln 15.   7 m

Lln 16.   5 m

Lln. 17 7 m

Lln. 18 7 m

Lln 1.      2 m

Lln 2.      3 m

Lln 3.      9 j

Lln 4.      10 m

Lln 5.      9 m

Lln 6.      7 m

Lln 7.      6 m

Lln 8.      5 j

Lln 9.      6 j

Lln 10.   7 m

Lln 11.   7 j

Lln 12.   2 j

Lln 13 6 m

 

  1. Wat is de frequentie van het proefwerkcijfer 6 van klas 3a?
  2. Wat is N bij klas 3b?

  3. Wat is relatieve frequentie van het proefwerkcijfer 4

  4. Wat is relatieve frequentie van het aantal onvoldoendes van de drie klassen 

  5.  

 

Beschrijvende statistiek: centrummaten

 

We gebruiken de volgende 3 typen centrummaten:

1. de modus

2. de mediaan

3. het gemiddelde

 

Centrummaten (voor beschrijvend onderzoek)

 

  1. Modus

De modus is de uitkomst, die het meest vóórkomt, dus die met de hoogste frequentie. Bij een discrete variabele spreken we van de modus, bij een geclassificeerde continue variabele van de modale klasse. De modale klasse is de klasse met de hoogste frequentie of, bij ongelijke klassenbreedte, die met de hoogste frequentiedichtheid. Het module inkomen is dus het inkomen dat meeste voorkomt, in 2015 was dat € 34.000.

Voorbeeld. Een bloembollenverkoper heeft 26 soorten bloembollen in zijn assortiment. In de frequentietabel zijn de verschillende bollen gesorteerd op de kleur van de bloem. In deze tabel is geel de modus.

FreqTab05

Staaf02

Een veel gemaakte fout is dat niet de uitkomst met de hoogste frequentie als modus genoemd wordt (geel) maar de frequentie zelf (8).

De modus en de modale klasse zijn eenvoudig af te lezen uit de meeste grafieken: een staafdiagram voor discrete uitkomsten en een histogram voor continue, geclassificeerde uitkomsten.

 

2. Mediaan

 

Wanneer de uitkomsten van een serie waarnemingen in oplopende volgorde worden geplaatst, ontstaat een geordende getallenreeks. De mediaan is de middelste van deze naar grootte geordende uitkomsten. De waarde waaronder en waarboven de helft van de scores dus valt.

Voorbeeld. Negen personen hebben een test afgelegd. Het aantal fouten dat ieder van hen maakte is geteld.

MedianOdd

Als het aantal uitkomsten even is, is de mediaan het gemiddelde van de middelste twee uitkomsten.

Voorbeeld. Dit zijn de gegevens van 10 personen die de test deden.

MedianEven

De mediaan deelt de geordende uitkomsten in twee even grote groepen. Voor de mediaan van een verdeling geldt, dat hoogstens 50% van de uikomsten een waarde heeft die kleiner is dan die van de mediaan. Tegelijkertijd heeft hoogstens 50% van alle uitkomsten een waarde groter dan die van de mediaan. .

Om de mediaan te kunnen bepalen moeten de uitkomsten gerangschikt kunnen worden. Op nominaal meetniveau is geen rangorde aan te brengen. Daarom kan de mediaan alleen berekend worden voor variabelen die minimaal op ordinaal meetniveau zijn gemeten.

Omdat de mediaan de middelste uitkomst is, hebben extreem hoge of lage uitkomsten weinig of geen invloed op de waarde ervan. De mediaan wordt daarom een robuuste maat voor het centrum van een verdeling genoemd. Bij een rechtsscheve verdeling wordt bij voorkeur de mediaan als centrummaat gebruikt. Het gemiddelde geeft dan een te hoge, niet-representatieve waarde.

 

3. Rekenkundig gemiddelde (r.g.)

 

Het gemiddelde (μ of X met een plat liggend streepje)) van een serie uitkomsten is de som van alle uitkomsten (Σx) gedeeld door het aantal uitkomsten (n).

mean03

 

Voorbeeld. Het gemiddelde van de leeftijden 10, 10, 11, 14 en 15 jaar is precies 12 jaar. De deviaties -2, -2, -1, +2 en +3 zijn samen precies gelijk aan nul.

MeanDev03

Het gemiddelde is de belangrijkste en meest gebruikte centrummaat. Van alle centrummaten is het gemiddelde het gevoeligst voor uitbijters, omdat bij de berekening van het gemiddelde alle uitkomsten meetellen en niet alleen de middelste waarde (mediaan) of de meest vóórkomende waarden (modus).

 

De onderstaande vragen hebben weer betrekking op de tabel met de Proefwerkcijfer in het blad hiervoor:

 

  1. Wat is de modus bij klas 3c?

     

  2. Wat is de mediaanwaarde bij klas 3b?

     

  3. Wat is de het gemiddelde proefwerkcijfer van de 3 afzonderlijk klassen?

 

 

 

Beschrijvende statistiek: spreidingsmaten

 

Voor dat we ingaan op de de spredingsmaten een klein stukje over een andere veel gebruikt begrip binnen de statistiek namelijk : de normaal verdeling. 

 

  1. Normaal verdeling

Een verdeling wordt gekenmerkt door o.a. zijn centrum en zijn spreiding.

Het centrum geeft aan rond welke centrale waarde de uitkomsten liggen. Veel gebruikte centrummaten zijn het gemiddelde en de mediaan.

De spreiding geeft aan hoe ver de uitkomsten uit elkaar liggen. Als de uitkomsten dicht bij elkaar liggen is de spreiding klein, liggen ze ver uit elkaar dan is de spreiding groot. Bekende spreidingsmaten zijn de standaardafwijking, de interkwartielafstand en de variatiebreedte of range.

Voorbeeld In de grafiek is de verdeling van het IQ van leerlingen van het VWO vergeleken met die van leerlingen op een basisschool. Als de IQ's dicht bij elkaar liggen is de spreiding klein, liggen ze ver uit elkaar dan is de spreiding groot. Het centrum geeft aan rond welke centrale IQ-score de uitkomsten liggen.

CenSpr01

 

De VWO-leerlingen hebben een gemiddeld IQ van 120. De spreiding is vrij klein, de uitkomsten liggen zo dicht bij elkaar dat een IQ kleiner dan 100 of groter dan 140 bijna niet vóórkomt. De variatiebreedte is ongeveer 50.

Op de basisschool is het gemiddelde IQ 100 en de spreiding veel groter: de variatiebreedte is daar ongeveer 80

In dit deel staan wel stil bij 2 spreidingsmaten:

1 Variatiebreedte

2. Standaardeviatie

 

  1. Variatiebreedte

De variatiebreedte of range is het verschil tussen de hoogste en de laagste uitkomst of tussen de hoogst en de laagst mogelijke waarden van een kwantitatieve variabele.

Voorbeeld. De variatiebreedte van de volgende leeftijden is 15 - 9 = 6 jaar.

Range05

De range geeft snel een eerste indruk van de spreiding in een verdeling. De standaardafwijking en de interkwartielafstand zijn betrouwbaarder spreidingsmaten, omdat

Range06

Deze maat wordt gebruikt om een eerste indruk van de grootte van de spreiding.

 

Bijvoorbeeld:

Score groep 1:                                   9              10           11           12           13

Score groep 2:                                   7              9              11           13          15

Score groep 3:                                   7              11           11           11           15

 

Variatiebreedte bij groep 1 is 13 – 9 = 4, bij 2 is 15 – 7 = 8, bij groep 3 idem 7.

 

Groep 2 scoort heterogener dan 3 echter dit komt niet tot uiting.

Dus: 'n tamelijk instabiele maat omdat de uitersten worden gebruikt.

 

2.            Standaarddeviatie of standaardafwijking (voor beschrijvend onderzoek)

 

De standaardafwijking is de belangrijkste en meest gebruikte spreidingsmaat. Hoe groter de spreiding is, des te groter zijn de deviaties (afwijkingen) en des te groter is dus de standaardafwijking. De standaardafwijking heeft in tegenstelling tot de variantie, de oorspronkelijke eenheden van de uitkomsten.

Voorbeeld. In de grafiek wordt de verdeling van de IQ's van leerlingen van 2 basisscholen A en B met elkaar vergeleken.

IQAvsB

Op beide basisscholen is het gemiddelde IQ 100. Op basisschool A liggen de IQ-scores dicht rond dit gemiddelde. De standaardafwijking is er σ = 6 eenheden IQ. Op basisschool B zijn er meer kinderen met een IQ dat flink afwijkt van het gemiddelde. De spreiding van de IQ's op school B is veel groter dan op school A, nl. σ = 20.

Een nauwkeurige maat dus waarbij alle scores betrokken worden op basis van de afwijking van elke score tot het centrum van de verdeling.

Hiervoor wordt de volgende formule gehanteerd:

 

 

 
 

 

 

 

                                                               

 

 

 
 

 

 

 

                                                                                N            

 

De standaardafwijking wordt ook aangegeven met Griekse letter sigma                …             :

 

Interpretatie en lezen van de standaardafwijking

 

Prestaties op een toets verzorging

 

Leerling 1             4

Leerling 2             5

Leerling 3             6

Leerling 4             6

Leerling 5             7

Leerling 6             8

Leerling 7             9

 

Het gemiddelde  van deze toets  =   6.42  (Lees: 45:7)

Vervolgens trek je van iedere individuele score (i) vervolgens het gemiddedel af en dat wordt gekwadrateerd. Dus bijvoorbeeld bij lln 5  is dat 7- 6.42 = 0.582

(= 0.58 x 0.58) = 0.3364. Dit doe je met alle leerlingcijfer. Als je dit gedaan hebt, tel je ze op (de som): 17.74. Deze som deel je door het aantal leerlingen, in dit geval 7. De uitkomst is 2.53. Uiteindelijk trek je uit dit getal de wortel, gebruik hierbij een rekenmachientje. De standdaardeviatie is dan 1.59.

 

De standaarddeviatie wordt uitgedrukte in de meeteenheid bijvoorbeeld schoenmaat. iq of proefwerkcijfer. 1 standaarddeviatie heeft de score van 1.59. Je kunt ook 2x de standaarddeviatie in een verdeling aangeven. In de meeste gevallen gebruikt men 1 standaarddeviatie (1 sd).

Dit wil zeggen dat  in een normaalverdeling  68% van de scores vallen tussen -1 sd en +1 sd. In dit rekenvoorbeeld van 68% van de populatie binnen 6.42 (gemiddelde) - 1.59 (links van het gemiddelde in de verdeling) =  4.83 en 6.42 + 1.59 (rechts van het gemiddelde in de verdeling) 8.01 

Je weet dus nu dat 68% van de leerlingen in deze groep zit tussen het toetscijfer 4.83  en 8.1. Als de de standaardeviatie groter is bijvoorbeeld 2, dan is de spreiding ook groter, ga maar 4.42 en 8.42. Er is dus meer spreiding. Dit kan iets zeggen over de toets bijvoorbeeld de moeilijkheidsgraad, de klas, de manier van lesgeven of het materiaal.

 

Maak nu de onderstaande laatste vragen die betrekking hebben op de proefwerktabel van 2 blokken hiervoor.

 

1. Hoe groot is het verschil in variatiebreedte tussen klas 3a en 3 c?

 

2. Wat is de standaardvariatie bij klas 3a en 3c?

 

3. Wat zegt dit verschil in standaarddeviatie?