NLT Statistiek voor onderzoeken en PWS

NLT Statistiek voor onderzoeken en PWS

Hoofdstuk 1 - Waarom statistiek

Statistiek is een middel om duidelijkheid te krijgen of een bepaalde conclusie ondersteund wordt door de verzamelde gegevens. Het kan namelijk zo zijn dat het verschil dat je ziet tussen twee groepen, of de toename die je ziet gedurende de tijd het gevolg is van een toevallige steekproef. Je zult zien dat het trekken van zulke conclusies niet altijd even makkelijk is. Deze module maakt een klein begin en geeft je een paar gereedschappen om hier zelf mee aan de slag te gaan. Dit eerste hoofdstuk dient ervoor om je duidelijk te maken waarom deze module nuttig voor jou is.

1.0 - Waar wordt statistiek gebruikt?

1.1 - Grafieken en variatie

Een belangrijke factor binnen de statistiek is de variatie die er is binnen de verzamelde gegevens. We spreken van variatie als niet alle waarden hetzelfde zijn. De standaardafwijking is een veelgebruikte maat voor variatie. Hier komen we later op terug.

Een ander factor die een belangrijke rol speelt in statistische vraagstukken is het verschil. Dit is het verschil in gemiddelde dat er daadwerkelijk is tussen twee populaties. Je kunt je voorstellen dat als dit verschil tussen populaties erg klein is, het moeilijker is om er zeker van te zijn dat een verschil tussen twee steekproeven van deze populaties per toeval tot stand is gekomen. Als het verschil erg groot is, wordt dit makkelijker.

De derde belangrijke factor die een grote rol speelt is de steekproefgrootte. Als je van alle mannen en vrouwen de lengte meet en deze twee groepen vergelijkt, is de kans veel groter dat je een betrouwbare conclusie kunt trekken dan als je dit alleen maar doet in je eigen klas, de rol van toeval wordt kleiner naarmate een steekproef groter wordt. Als je geen inzicht hebt in al deze drie factoren wordt het erg moeilijk een betrouwbare conclusie te trekken over de gegevens. Zonder de aanwezige variatie mee nemen in je conclusie kan het zijn dat je onterecht zegt dat er een verschil is tussen groepen of een toename in de tijd van iets wat je gemeten hebt. Het kan ook zijn dat je onterecht concludeert dat er geen verschil is. Als je wilt toetsen of een nieuw medicijn negatieve bijwerkingen heeft is dat bijvoorbeeld erg belangrijk.

Om deze drie invloeden duidelijk te maken volgen een paar voorbeelden.

Figuur 1
Figuur 1
Figuur 2
Figuur 2

In figuur 2 zie je twee grafieken, figuur 2a is als figuur 1, de figuur 2b  heeft ook een indicatie voor hoe groot de variatie is (de foutbalken = standaardafwijking). Je ziet dat figuur 2b iets van informatie geeft over de spreiding. Het lijkt alsof de foutbalk bij de mannen korter is dan bij de vrouwen, wat kan betekenen dat binnen mannen er minder variatie is in lengte. Maar dit kan ook toeval zijn. Wat zou je zeggen over de betrouwbaarheid van het verschil tussen de mannen en vrouwen?

Figuur 3
Figuur 3
Figuur 4
Figuur 4

Dit zijn voorbeelden geweest voor het vergelijken van groepen. Je kunt echter ook soms een reeks getallen onderzoeken en kijken of deze toe- of afneemt. Het analyseren van dit soort gegevens komt later aan bod in de module, maar ze zijn erg handig om het effect van steekproefgrootte aan te geven. Je hebt ook gezien dat de presentatie van de gegevens cruciaal is voor het trekken van goede conclusies. We komen hier nog vaker op terug.

Figuur 5
Figuur 5

1.2 - Histogram

Je hebt in paragraaf 1.1 een aantal grafieken gezien die niet heel duidelijk de variatie, steekproefgrootte en verschillen lieten zien.

Is er een manier om dat duidelijker te maken? Ja, dat doe je met een histogram.

In een histogram staat op de y-as hoe vaak een bepaalde waarde (aangegeven op x-as) is gemeten. In figuur 6 zie je een histogram van het eerder genoemde voorbeeld uit opdracht 1.

Je gaat zelf nog een aantal keer histogrammen maken tijdens deze module. Je gaat dit in MS Excel doen. Je hebt van school toegang tot Office 365 en dus ook tot Excel.

Figuur 6
Figuur 6

Histogram vanuit draaitabel

1.3 - Gegevens

Je hebt in bovenstaande voorbeelden een hoop gegevens voorbij zien komen. We stellen bij statistiek een paar eisen aan die gegevens. De eerste is nauwkeurigheid. Als je de lengte van een persoon meet en je rondt dit af naar meters, is iedereen in de klas 2 m. Dat levert dus niet echt iets nuttigs op. Als je afrond op decimeters zal je misschien 1.5, 1.6, 1.7, 1.8, 1.9 en 2.0 krijgen als verschillende waarden. Dat is al nuttiger, maar nog steeds niet heel erg. Aan de andere kant is het afronden op millimeters erg nauwkeurig (als je zo nauwkeurig hebt kunnen meten) maar zoveel precisie is vaak niet nodig.

Een tweede eis is die van onafhankelijkheid. Dit is het makkelijkst uit te leggen d.m.v. een voorbeeld. Stel, je wilt het dieet van een groep mensen onderzoeken en je neemt enquêtes af in een dorp met 300 inwoners. Als je van iedereen in dat dorp het dieet in kaart brengt heb je dus 300 meetpunten. Veel gegevens en dus betrouwbare conclusies. Of niet? Familieleden eten namelijk meestal hetzelfde, dus eigenlijk ben je dan een paar keer hetzelfde aan het meten en is het dieet van het ene gezinslid niet onafhankelijk van dat van een ander gezinslid. Is dat een probleem dan? Ja, want de hoeveelheid gegevens wordt in de statistische formules (die je later nog zal tegenkomen) gebruikt, en hoe meer gegevens des te sneller je een conclusie kunt trekken. Als je dus doet alsof je 300 onafhankelijke waarden hebt, terwijl dit er eigenlijk maar 100 zijn, stel je dus de betrouwbaarheid van je experiment te rooskleurig voor. Het probleem van de onafhankelijkheid is een van de lastigste problemen in de statistiek.

Samenvatting H1

Je hebt in dit hoofdstuk geleerd dat

-      de presentatie van gegevens cruciaal is om er goede conclusies uit te trekken.

-      variatie, steekproefgrootte en het verschil een belangrijke rol spelen in wat de juiste conclusie is.

-      je deze 3 factoren in een histogram uiteen kunt zetten.

-      gegevens nauwkeurig en onafhankelijk van elkaar moeten zijn.

 

Je hebt dus vooral geleerd dat er statistiek nodig is om conclusies te kunnen trekken uit gegevens en dat je niet zo maar naar een grafiekje kunt kijken. De verdere hoofdstukken dienen ervoor om een paar van de belangrijkste statistische methodes te leren herkennen, interpreteren en toepassen.

Hoofdstuk 2 - Het gemiddelde

Als je wilt praten over grote aantallen, is het niet handig om die stuk voor stuk op te noemen. Er zijn een aantal manieren om die getallen samen te vatten. Eén daarvan is het gemiddelde.

Paragraaf 2.4 laat je zien dat er ook andere manieren zijn om grote aantallen te beschrijven. Misschien wil je gauw even kijken naar opgave 8, die laat mooi zien dat het gemiddelde soms totaal onbruikbaar is.

Deze module gaat alleen over het beoordelen van experimenten waar je een gemiddelde bij kunt berekenen.

2.1 - Waarom eigenlijk het gemiddelde?

Hoe oud ben jij? Waarschijnlijk geef je als antwoord een getal in de buurt van 17, want je zit in 5 havo of 6 vwo.

Hoe oud is de leerling die naast je zit? Waarschijnlijk geef je weer een getal als antwoord.

Noem nu de leeftijd van vier andere leerlingen in je klas. Waarschijnlijk geef je nu vier getallen.

Maar als ik je nu vraag hoe oud de leerlingen in je klas zijn? Dan ga je waarschijnlijk niet een lijst samenstellen van de leeftijden van alle leerlingen in je klas. Nogal een werk, en waar is dat voor nodig. Als je wel een antwoord wilt geven, zal je waarschijnlijk zoiets zeggen als: “16 of 17 of zo.”

 

Dat doe je omdat de meeste leerlingen zo rond de 16 of 17 zijn. Die ene leerling die nog 14 of 15 is, of die ene die al 18 of 19 is, neem je niet mee in je antwoord. Je geeft dus de meest voorkomende waarden.

Als ik je had gevraagd welke leeftijden voorkomen in 5havo of 6vwo, dan had je een serie getallen gegeven, of je had gezegd wat de minimum en maximum leeftijd is.

Stel ik vraag je hoe oud in Nederland de leerlingen in 5 havo of 6 vwo zijn. Je gaat dan waarschijnlijk op zoek naar gegevens van bijvoorbeeld het Centraal Bureau voor de Statistiek en je komt met een getal met een paar decimalen. Dat is het gemiddelde van de leeftijd van alle leerlingen in 5 havo of 6 vwo in Nederland.

 

We nemen een ander voorbeeld.

Als ik je vraag: “Hoe warm is het in het lokaal?” dan zal je op een thermometer kijken en één waarde opgeven.

Als ik je vraag hoe warm het was buiten in het afgelopen weekeinde, zal je een tweetal waarden geven; één voor zaterdag en één voor zondag.

Maar als ik je vraag om de temperatuur in de maand november te geven, zal je waarschijnlijk niet 30 waarden opgeven, zelfs niet als je de data voor je hebt liggen. Zo’n brei van getallen, daar heb je niet zoveel aan. Je noemt liever het gemiddelde.

En als ik je zou vragen de temperatuur in november van 2007 te vergelijken met die van 2006, heeft het zelfs geen zin om alle getallen met elkaar te vergelijken. Je kiest er voor om het gemiddelde van november 2007 te vergelijken met het gemiddelde van november 2006.

2.2 - Wat is het gemiddelde?

Het zal je duidelijk zijn dat het vaak niet handig is om een brei van getallen te spuien. Om nog een voorbeeld te geven, als je de resultaten op een toets van H5A wilt vergelijken met die van H5B, dan ga je niet twee lijsten naast elkaar leggen, maar je vergelijkt de gemiddelden.

 

Het berekenen van een gemiddelde kan je al. Bijvoorbeeld het gemiddelde van de cijfers 3, 4, 6, 6, 7, 6 is gelijk aan

\(gemiddelde = {3+4+6+6+7+6\over 6}\)

In woorden:

\(gemiddelde = {som\: van \:alle \:waarden \over aantal\:waarden}\)

Of in symbolen:

\(\overline{x} = {x_1 +x_2+x_3 + ... + x_n \over n}\)                                                 (1)

waarin:

  • \(\overline{x}\) = het gemiddelde
  • x1, x2, x3…xn = verschillende waarden
  • n = het totaal aantal waarden.

 

Dit kan nog korter opgeschreven worden, door het somteken te gebruiken:

 

\(\overline{x} = {\Sigma_{i-1}^n x_i \over n}\)                                                                 (2)

 

Het teken dat lijkt op een hoofdletter M op zijn kant is de Griekse hoofdletter S, omdat het een som aangeeft. Je spreekt het uit als sigma. Het subscript i telt het aantal waarden af, en xi is dus telkens een ander getal. Dit is een manier om dus heel veel tekens in 1x op te schrijven.

2.3 - Opgaven

In de onderstaande opgaven ga je veel met Excel aan de slag.

Een paar handige functies om te weten in Excel zijn:

=gemiddelde(...)

=mediaan(...)

=modus(...)

Hiermee kun je het gemiddelde, de mediaan of de modus van een reeks getallen bepalen.

=max(...)

=min(...)

Hiermee kun je het maximum of het minimum van een reeks getallen bepalen.

Verdere Excelskills worden in de les uitlegd.

Figuur 7
Figuur 7
Figuur 7b
Figuur 7b

2.4 - Andere centrummaten

Soms geeft het gemiddelde niet een juiste indruk van een serie getallen. Kijk maar naar vraag 13.

Mediaan

Als de gemiddelde leeftijd bijna 19 jaar is, dan denk je dat ze alle zeven al geruime tijd van de basisschool af zijn. Dan denk je niet aan een honderdjarige met zijn kleinkinderen!

 

Hoe zou jij de leeftijd van de mensen op de foto hebben beschreven?

 

Waarschijnlijk zeg je: “Een oude man en een groep kleine kinderen.” Als er een uitschieter zit tussen een serie getallen, dan geeft het gemiddelde geen juiste indruk. In dit soort gevallen is het handiger om de serie leeftijden samen te vatten met het begrip mediaan. Dit is de middelste waarde. Je vindt de mediaan door alle waarden te sorteren, te nummeren, en dan de middelste waarde te nemen.

 

We nemen als voorbeeld de mediaan van de leeftijden op de foto uit opdracht 15. In figuur 9 staan de leeftijden gerangschikt. De middelste waarde is de 4de, en de mediaan is dus 6 jaar.

Modus

Meestal vat je reeksen van getallen samen door het gemiddelde te geven, of eventueel de mediaan. In §  2.1 heb je nog andere manieren gebruikt om een reeks getallen samen te vatten. Je kunt de kleinste en het grootste waarde geven. Je hebt toen ook een keer de meest voorkomende waarde gegeven. Dit heet in de statistiek de modus. Om die te vinden moet je eerst tellen hoe vaak elke waarde voorkomt.

Bijvoorbeeld: de modus van de reeks getallen 3, 4, 6, 6, 7 en 6 is 6, want 6 komt drie keer voor, en 3, 4 en 7 elk maar één keer. In de tabel hieronder staat dit weergegeven in een frequentietabel.

 

Waarde Aantal keer
3 1
4 1
6 3
7 1

 

2.5 - Opgaven

Figuur 12: jaarinkomens van werknemers van een fabriek.
Figuur 12: jaarinkomens van werknemers van een fabriek.

2.6 - Samenvatting

In dit hoofdstuk heb je gezien hoe je reeksen van getallen kunt samenvatten. Je kunt de hoogste en de laagste waarde geven, je kunt het gemiddelde geven, je kunt de modus geven (de waarde die het meest voorkomt) of je kunt de mediaan geven (de waarde die in het midden van de reeks ligt). Het gemiddelde, de modus en de mediaan worden centrummaten genoemd.

 

Tot slot een vraagstuk dat de mogelijkheden van dit hoofdstuk samenvat.

Figuur 13
Figuur 13

Hoofdstuk 3 - Spreiding

3.1 - Waarom een spreidingsmaat?

In dit hoofdstuk zullen we het begrip spreiding bespreken. Maak als inleiding eerst opgaven 19 tot en met 21.

3.2 - Wat is een spreidingsmaat?

Uit paragraaf 3.1 blijkt dat we er met alleen het gemiddelde nog niet zijn om een brei aan gegevens samen te vatten. We moeten ook iets vertellen over hoe ver de gegevens uit elkaar liggen. Statistici noemen dit spreiding of variatie. We moeten een manier vinden om die spreiding te beschrijven. Statistici zeggen dat ze een maat voor de spreiding nodig hebben.

 

Bekijk de tabel in figuur 14 van leeftijden van patiënten eens.

Figuur 14
Figuur 14

De gemiddelde leeftijd is 72,8 jaar. Hoe ver liggen de gegevens uit elkaar?

 

Het kan zijn dat je als antwoord gaf de minimum en maximum leeftijd (38 en 91 jaar). Of met andere woorden, de leeftijden liggen verspreid tussen 38 en 91 jaar. De variatiebreedte is bruikbaar, maar het zegt niets over de andere waarden. Misschien liggen veel waarden vlakbij het gemiddelde, en maar een paar heel ver weg. Met andere woorden, uitschieters kunnen de betekenis van de variatiebreedte verminderen.

 

Kan je iets verzinnen om aan te geven hoe ver de leeftijden zoal afliggen van het gemiddelde?

 

Je zou het verschil tussen elke waarde en het gemiddelde kunnen noemen. In figuur 15 is de tabel aangevuld met deze waarden.

Figuur 15
Figuur 15

Het verschil is telkens het gemiddelde minus elke waarde xi oftewel - xi. Bij een negatief verschil is de xi kleiner dan en bij een positief verschil groter.

Zo’n hele lijst met verschillen is weer weinig zinvol. Maar het gemiddelde van deze verschillen dan? Dus:

gemiddeld verschil =

\(\Sigma^n _{i=1} \overline x-x_i \over n\)

Intuïtief is dat een goed idee. Hoe groter het gemiddelde verschil, hoe verder de waarden uit elkaar liggen. Maar helaas, er zijn evenveel waarden boven het gemiddelde van 72,8 als er onder. De som van de “verschillen” is dus 0, en het gemiddelde verschil ook.

 

Dat we hier even vastlopen is eigenlijk een beetje onze eigen schuld. We waren op zoek naar de gemiddelde afstand, en daarvoor hadden we de formule bedacht. Dat uit die formule ook negatieve getallen komen is een gevolg van de formule, we wilden eigenlijk alleen maar een maat voor de afstand. De wiskundige past hier een truc toe. Je neemt de absolute waarde van het verschil (alle positieve waarden blijven positief, alle negatieve waarden worden ook positief; in formuletaal: | verschil |). Zie figuur 16.

Figuur 16
Figuur 16

Van deze rij verschillen kan je heel goed het gemiddelde nemen als maat voor de afstand van alle leeftijden tot de gemiddelde leeftijd. Het gemiddelde van | verschil | is de som van al die waarden, gedeeld door het aantal:

gemiddeld verschil = \(\Sigma^n _{i=1}|\overline x-x_i|\over n\) = 9,63 jaar

Deze maat voor de spreiding geeft netjes weer wat de gemiddelde afstand van alle waarden is tot het gemiddelde zelf.

 

In de statistiek gebruikt men vaak het kwadraat van de verschillen in plaats van de absolute waarden. Dat heeft tot gevolg dat waarden die verder af liggen van het gemiddelde zwaarder mee tellen. Waarden die vlakbij het gemiddelde zijn minder belangrijk dan waarden die verder weg liggen. Hoe meer ver-weg-gelegen-waarden, hoe onbetrouwbaarder het gemiddelde wordt. In figuur 17 is de tabel aangevuld met de kwadraten van de verschillen:

Figuur 17
Figuur 17

Daarmee komen we op de definitie van een veel gebruikte maat voor de spreiding, de variantie:

 

variantie =            \(\Sigma^n _{i=1}(\overline x-x_i)^2\over n\)                                   (3)

 

Er is nog één probleempje waar we aandacht aan moeten besteden: de eenheid van deze variantie is jaar2, dus “vierkant jaar” net zo als cm2, vierkante centimeter. Als je wilt opgeven dat de gemiddelde leeftijd 72,8 jaar is, met een spreiding van 178,4 jaar2, dan zegt je dat niet zoveel. Daarom wordt in de statistiek vaak nog de wortel genomen van de variantie. Deze maat voor de spreiding heet standaardafwijking of standaarddeviatie. Oftewel:

standaardafwijking =    \(\sqrt{\Sigma^n _{i=1}(\overline x-x_i)^2\over n}\)                           (4)

Deze formule stelt je in staat om te kunnen uitleggen hoe de standaardafwijking tot stand komt. Je zult echter in de praktijk niet vaak met de hand de standaardafwijking berekenen. Je moet dit wel kunnen voor de toets!

Om in MS Excel de standaardafwijking van een reeks getallen te berekenen selecteer je een lege cel en typ je in: =stdev.p(XXX:XXX).

Op de plaatsen van de XXX:XXX kun je de reeks met de muis selecteren, of de bovenste cel van de reeks intypen, gevolgd door een dubbele punt gevolgd door de onderste cel in een reeks getallen. Belangrijk hiervoor is dat al je getallen netjes onder elkaar staan. Netjes werken in een excelbestand levert dus tijdwinst op.

3.3 - Opgaven

Figuur 18
Figuur 18
Figuur 19
Figuur 19

3.4 - Samenvatting

In dit hoofdstuk heb je gezien dat alleen een gemiddelde een serie gegevens niet voldoende beschrijft. Je hebt ook een maat voor de spreiding nodig. Dit is de standaardafwijking. In het hoofdstuk is uitgelegd hoe de standaardafwijking berekend kan worden. Je kunt inmiddels ook in Excel de standaardafwijking berekenen.

Hoofdstuk 4 - De normale verdeling

4.1 - Inleiding

In de vorige hoofdstukken heb je geleerd dat je grote hoeveel­heden gegevens kunt samenvatten met het geven van het gemiddelde en de standaardafwijking. Bij de standaardafwijking heb je gezien dat waarden die dicht bij het gemiddelde liggen minder zwaar mee wegen dan waarden die ver van het gemiddelde afliggen.

In dit hoofdstuk ga je nauwkeuriger kijken naar de manier waarop de waarden verspreid zijn rond het gemiddelde. De vraag is dus, hoe vaak een waarde dicht bij het gemiddelde ligt, en hoe vaak verafgelegen waarden voorkomen. Een goede manier om de gegevens te bekijken is met een histogram. Jullie hebben al eerder in Excel een histogram gemaakt.

4.2 - Wat is dat eigenlijk: de normale verdeling?

Hoewel het histogram dat je getekend hebt er misschien wat onregelmatig uitziet, kun je toch wel vaststellen dat de gegevens symmetrisch gegroepeerd zijn rond een centrale waarde. Daarbuiten neemt de frequentie geleidelijk af tot nul. De waarden die in de buurt van het gemiddelde liggen komen het vaakst voor, terwijl waarden die verder weg liggen zelden voorkomen.

 

Grootheden als lengte, gewicht, temperatuur, noemen we normaal verdeeld omdat we deze verdeling overal om ons heen tegenkomen, heel normaal is dus, vooral bij biologische grootheden.


Dit model wordt ook wel een klokkromme genoemd, omdat het de vorm heeft van de klok (uit een kerktoren).

Figuur 20
Figuur 20

Om je te laten zien hoe een klokkromme er uit ziet, hebben we met MS Excel een reeks van 5000 getallen gemaakt die normaal verdeeld zijn. Het gemiddelde van de getallen is 0, en de standaardafwijking 1.

In figuur 20A zie je een histogram met maar 10 van die getallen; de normale verdeling is nauwelijks te herkennen.

In figuur 20B staat 50 getallen bijeen.

In figuur 20C met 500 getallen wordt de normaalkromme al een beetje zichtbaar.

Pas in figuur 20D, bij 5000 waarden, volgt het histogram de normaalkromme vrij precies.

4.3 - Opgaven

In paragraaf 4.1 zag je dat het maken van een histogram veel werk is. MS Excel kan je daarbij helpen. Eerst moet je een frequentie tabel maken, en daarna maak je het diagram zelf. Het maken van de frequentie tabel is zonder oefening niet eenvoudig, omdat MS Excel hiervoor matrices gebruikt. Bekijk het filmpje uit hoofdstuk 1 nog eens voor de methode met de matrices (=interval-functie). Hieronder zie je nog een filmpje waarin het op een andere manier uitgelegd wordt. Dat kan het namelijk nog makkelijker maken, maar ALLEEN als de gegevens op een goede manier gestructureerd zijn.

Histogram en draaitabel

4.4 - Samenvatting

In dit hoofdstuk heb je gezien dat veel grootheden normaal verdeeld zijn. Een histogram van vele waarden van zo’n grootheid is symmetrisch, met veel waarden in de buurt van het gemiddelde, en veel minder waarden verderaf gelegen. Als het aantal waarnemingen toeneemt, nadert het histogram de vorm van een klok. Deze klokkromme wordt de normale verdeling genoemd.

Histogram en draaitabel

4.6 - Niet-normale verdelingen

De normale verdeling wordt zo genoemd, omdat dit soort verdeling veel in de natuur voorkomt. Het is “normaal”. Maar lang niet elke grootheid is normaal verdeeld, zelfs niet in de natuur. Hieronder hebben we twee voorbeelden.

Hoofdstuk 5 - De vuistregels van de normale verdeling

5.1 - Inleiding

In hoofdstuk 4 zag je dat veel grootheden normaal verdeeld zijn. Deze verdelingen zijn met een formule te beschrijven. Sommige eigenschappen van die formule zijn buitengewoon handig. Dit hoofdstuk gaat over de eigenschappen van de normale verdeling.

5.2 - De oppervlakte onder de normaalkromme

In het Excel bestand  temperatuur.xls staan onder meer de gemiddelde temperaturen in de maand juli van 1755 tot en met 2007.

Figuur 20
Figuur 20

In dit histogram is direct duidelijk dat temperaturen van 15,5 tot en met 18ºC vaak voorkomen, en dat gemiddelde maandtemperaturen als 14ºC of 20,5ºC ongebruikelijk zijn. In het diagram is ook de normaalkromme getekend. Je ziet dat de gemiddelde maandtemperatuur ook ongeveer normaal verdeeld is.

 

Zoals je al eerder zag, een histogram geeft aan hoe vaak bepaalde waarden voorkomen. Tussen 1755 en 2007 was de gemiddelde maandtemperatuur 37 keer rond de 16,5ºC (om preciezer te zijn, tussen de 16,25 en 16,75ºC). En een gemiddelde maandtemperatuur tussen de 15,75ºC en 18,25ºC kwam maar liefst in 25+37+40+26+25 = 153 jaar voor. Het totaal aantal jaren van 1755 tot 2007 was 253 jaar, dus 153 jaar is 153/253 = 60,5% van alle jaren.

 

De normaalkromme is goed bruikbaar om aan te geven hoe vaak bepaalde waarden voorkomen. Om met een simpel voorbeeld te beginnen: de normaalkromme is symmetrisch, en dus komen in de linkerhelft van de normaalkromme ongeveer evenveel waarden voor als in de rechterhelft. Zie figuur 21.

Figuur 21
Figuur 21

Je mag zeggen dat de oppervlakte onder de kromme overeen komt met hoe vaak die waarden voorkomen. Er zijn formules om de oppervlakte onder de normaalkromme uit te rekenen. De formule werkt zodanig dat de hele oppervlakte gelijk is aan 1 of 100%. Bijvoorbeeld de oppervlakte van uiterst links tot het gemiddelde van 16,9 (het gele deel in figuur 21) is 0,5.

 

Er zijn een paar handige waarden om te onthouden. In figuur 22 zijn die waarden speciaal aangeduid. Het zijn het gemiddelde, en waarden die van het gemiddelde afliggen op een vast aantal maal de standaardafwijking. De standaardafwijking wordt aangeduid met s.

Figuur 22
Figuur 22

De oppervlakte tussen en kan je gemakkelijk met je grafische rekenmachine of met MS Excel uitrekenen. Het blijkt 0,68 te zijn, dus 68% van alle waarden. En zo blijkt tussen twee standaardafwijkingen vóór het gemiddelde en twee standaard­afwijkingen na het gemiddelde 95% van alle waarden te liggen. En 99% van de waarden ligt binnen drie standaardafwijkingen van het gemiddelde.

Deze waarden worden de vuistregels van de normale verdeling genoemd, en het is praktisch om die getallen uit het hoofd te kennen. Je mag deze regels namelijk ook omdraaien: niet alleen gelden de vuistregels voor elke normale verdeling, maar je mag ook zeggen dat een grootheid waarschijnlijk nor­maal verdeeld is als die verdeling voldoet aan de vuistregels.

68% tussen \(\overline x -s\) en \(\overline x + s\)
95% tussen  \(\overline x -2s\) en \(\overline x + 2s\)
99% tussen   \(\overline x - 3s\) en \(\overline x + 3s\)

Het is dus onwaarschijnlijk om een maandtemperatuur te treffen die meer dan drie standaardafwijkingen van het gemiddelde ligt. Dat zou voor Juli neerkomen op 16,9 - 3×1,42 = 12,6ºC. Dat is tussen 1755 en 2007 ook nooit voorgekomen. Interessant genoeg is het andere uiterste (16,9 + 3×1,42 = 21,2ºC)  maar liefst twee keer voorgekomen, en ook nog eens in de laatste 15 jaar, 1994 en in 2006.

Let op:

Bij Wiskunde A krijgen jullie deze vaste kansen maar tot 95% en 2 standaardafwijkingen van het gemiddelde. Er wordt dan gesteld dat voorbij de 3 standaardafwijkingen van het gemiddelde er 0 procent van de gegevens ligt. Dat is theoretisch onjuist. Sterker nog, binnen de statistiek bestaan de kansen van 0% en 100% niet. Deze kansen opschrijven bij het SE leveren dan ook nooit de punten van de vraag op. Is de kans heel klein, dan schrijf je bijv. <1% op. Is de groter dan 99%, schrijf je >99% op.

5.3 - Opgaven

Figuur 23
Figuur 23

Je krijgt van de docent nog een oefenvel met de vuistregels van de normale verdeling.

Figuur 24
Figuur 24

5.4 - Samenvatting

In dit hoofdstuk heb je kennis gemaakt met een aantal eigenschappen van de normale verdeling. Je zag dat de oppervlakte onder de normaalkromme een maat is voor het aantal gegevens.

Grootheden zijn normaal verdeeld als ze voldoen aan de vuistregels van de normale verdeling.

Hoofdstuk 6 - Hypotheses toetsen

6.1 - Inleiding

Als je onderzoek doet test je hypotheses. Daar zijn bepaalde regels voor en die gelden ook voor statistiek. Als je die regels goed toepast, ook al zijn ze een beetje abstract, is het vrij simpel.

Belangrijk om te bedenken is dat we in dit hoofdstuk steeds het onderscheid maken tussen de steekproef en de populatie. De populatie is de gehele groep, en de steekproef is een klein gedeelte van de groep waarmee je het onderzoek uitvoert (omdat dat bijv. met de hele groep teveel werk is). Met een goede steekproef krijg je betrouwbare resultaten.

Dat betekent dat we steeds uitspraken doen op basis van de steekproef. Afhankelijk van de 'power' van je analyse gaat die betrouwbaar zijn en dus overeenkomen met de populatie. Maar niet altijd! Soms geeft je steekproef een andere uitkomst dan je zou hebben gekregen als je het onderzoek met de hele populatie zou hebben uitgevoerd.

Verder is het goed om te bedenken dat we het vanaf nu steeds over toetsen hebben in relatie tot hypotheses. Dit heeft niets met toetsen in de zin van proefwerken te maken.

6.2 - Nul-hypothese

Je start een statistisch onderzoek altijd met een nul-hypothese. Deze hypothese is een beetje suf geformuleerd en wordt vaak niet echt expliciet vermeld, maar het is heel belangrijk om te snappen dat hij er moet zijn. De nul-hypothese is altijd van de vorm dat er geen enkel effect is of geen enkel verschil tussen groepen. Voorbeeld: als ik de cijfers van twee klassen wil vergelijken m.b.v. statistisch onderzoek is mijn nul-hypothese altijd dat deze klassen niet van elkaar verschillen: dat de cijfers gemiddeld even hoog zijn.

Als je deze hypothese kunt verwerpen (kunt laten zien dat hij niet klopt) weet je dus dat de groepen ongelijk zijn of dat er wel een bepaald effect is. Dit is vaak wat je wilt weten. Omdat je bij een onderzoek verwerpt en niet bewijst (neem dat even aan) moet je dus eerst een nul-hypothese verwerpen om te kunnen zeggen dat er een verschil is.

6.3 - Alternatieve hypothese

Als de nul-hypothese verworpen wordt is de alternatieve hypothese, er is wel een verschil of een effect, waarschijnlijker. De alternatieve hypothese lijkt vaak meer op wat je verwacht en is wat je, bij bijv. biologie, als hypothese zou opstellen. Een alternatieve hypothese in zijn meest basale vorm is dat er een effect of verschil is. Je kunt echter, als je daar goede aanwijzingen voor hebt specifieker zijn. Je kunt dan bijvoorbeeld aangeven dat je alternatieve hypothese is dat je verwacht dat er een positief of negatief effect is, of dat de ene groep groter of kleiner is.

Als we naar nul-hypotheses en alternatieve hypotheses kijken is het handig om daar een afkorting voor te gebruiken. Voor nul-hypothese gebruiken we H0 en voor de alternatieve hypothese H1.

 

Voorbeeld.

Er zijn twee voetbalclubs, stel Heracles en FC Twente. Er wordt een onderzoek gedaan naar het gedrag van supporters van beide clubs. Bijvoorbeeld: wat is het verschil in patatconsumptie tijdens een thuiswedstrijd bij deze clubs. De onderzoeker verwacht dat er gemiddeld door FC Twentefans meer friet gegeten wordt in de rust.

H0: Er is geen verschil in patatconsumptie tussen deze clubs

H1: Er is wel een verschil in patatconsumptie tussen deze clubs

Als de onderzoeker sterke aanwijzingen heeft dat bij een van de clubs de consumptie veel hoger is (hij heeft voorkennis) kan hij ook een gerichte H1 opstellen. Bijv.

H1: De patatconsumptie zal hoger zijn bij Heracles dan bij FC Twente.

Figuur 28 (Foto: Rudy Jonker)
Figuur 28 (Foto: Rudy Jonker)

6.4 - Hypotheses toetsen

Als een onderzoeker statistiek gebruikt is er vaak een onzekerheid in zijn conclusie. Dat komt omdat hij meestal een steekproef heeft genomen van een grotere populatie. Als je iets wilt onderzoeken over motivatie van leerlingen op school, is het erg veel werk om alle leerlingen te onderzoeken, maar zal ik eerder een paar klassen uitzoeken om dat te onderzoeken. Het voordeel is dat het werkbaar is, het nadeel is dat mijn steekproef niet per se hoeft te kloppen met de werkelijkheid. Er zijn dan verschillende uitkomsten mogelijk:

  Werkelijkheid (populatie)  
Conclusie (o.b.v. steekproef) Geen verschil Wel verschil
Geen verschil Correct (waar-negatief) Fout vd 2e soort (vals-negatief)
Wel verschil

Fout vd 1e soort

(vals-positief)

Correct (waar-positief)

 

In de tabel hierboven zie je een tabel waarin de mogelijke uitkomsten van een onderzoek staan vermeld. Je ziet links de conclusie van de onderzoeker en aan de bovenkant hoe het in het echt zit. De conclusie kan afwijken van de werkelijkheid omdat de steekproef niet per sé een goede afspiegeling hoeft te zijn. Met kleinere aantallen is namelijk de invloed van een toevallig afwijkende waarde in de steekproef groter. Dus als de onderzoeker concludeert dat er geen verschil is tussen groepen en dat was ook echt zo, dan was de onderzoeker correct. Concludeert de onderzoeker dat er wel een verschil was (hij verwerpt de nul-hypothese) terwijl er helemaal geen verschil was maakt hij een fout. Deze fout noemen we de fout van de 1e soort of een type-1 fout. Als er in het echt geen verschil was en de onderzoeker concludeert dat er geen verschil was, dan had hij gelijk. Als hij echter concludeert dat er geen verschil was, terwijl dit in werkelijk wel zo was, maakt hij de fout van de 2e soort of type-2 fout.

 

Waarom is dit zo belangrijk?

 

De fout van de 1e orde wordt berekend met allerlei statistische methodes, die jullie in het volgende hoofdstuk gaan leren. Omdat het niet prettig is om te concluderen dat er een effect is, terwijl dat niet zo is, is er een grenswaarde voor de fout van de 1e orde waaronder je mag zeggen dat er een effect is. Deze grenswaarde noemen we alpha of α (griekse letter alpha). Meestal wordt deze op p=0,05 gesteld. Bij veel statistische methodes wordt deze kans berekend en als deze kans kleiner is dan 0,05 wordt vaak gezegd dat het verschil dat er is (of het effect dat uit de steekproeven komt) statistisch significant is.
Belangrijk om te weten is dat de kans op een waar-positief resultaat 1-alpha is. Deze kans geeft eigenlijk aan dat wat de kans is op het verkregen resultaat (of extremer) als de nulhypothese waar is. Dus als die kans heel klein is, dan is de nulhypothese onwaarschijnlijker dan een alternatieve hypothese.

 

Fout van de 2e soort

Deze fout vertelt je hoe goed je een echt verschil kunt vinden. De kans op het vinden van een verschil, als dat er is, is dus 1 min de fout v.d. 2e soort. Stel je fout van de 2e soort is 0,2, dan is die kans op het vinden van een verschil dus 0,8. Die kans noemen we ook wel de kracht van de test.

Relevantie

Het is belangrijk bij dit alles te blijven nadenken of je eventuele statistisch significante verschil ook relevant is. Stel dat je erachter komt dat Twente supporters siginificant meer patat eten dan Heracles supporters, en dat dit verschil 1 patatje (het stengeltje, niet het bakje) per jaar is, dan zegt dat natuurlijk helemaal niets.Om die reden moet je ook altijd bij antwoorden beschrijven hoe groot een effect of verschil is, als je statistiek aantoonde dat het verschil of effect statistisch significant was.

Fout vd 1e soort: je hebt door toeval een verschil gevonden in de steekproef dat er in het echt (de populatie) niet is. Je berekent de kans hierop.

 

Fout vd 2e soort: je hebt een verschil dat er in de populatie wel is, niet gevonden in de steekproef. Je berekent de kans hierop.

6.5 - Opdrachten

voorbeeld power-analyse

6.6 - Samenvatting

Extra opdracht Excel skills

Het bestand CO2 hieronder bevat een tijdreeks van 3 broeikasgassen (CO2, N2O en CH4).

Maak 3 grafieken:

1) histogram van de 3 gassen

2) grafiek vd 3 gemiddelden
3) Grafiek met tijd op x-as en concentraties op y-as voor de 3 gassen
 

Uitleg Hoofdstuk 6

We gebruiken in de statistiek vaste methodes om onze hypotheses te benoemen: H0 voor geen effect of verschil en H1 voor wel een effect of verschil.

Statistici gebruiken de kans dat ze onterecht concluderen dat iets effect heeft om hun conclusies betrouwbaar te maken. De grenswaarde alpha is meestal 0,05. Als de kans op de fout van de 1e soort lager is dan alpha noemen we een conclusie statistisch significant. Deze grens van 0,05 is niet heilig, als de kans op fout vd 1e soort 0,049 is, is dat niet betrouwbaarder dan een kans van 0,051. Daarom moet je bij deze kansen altijd blijven nadenken.

 

VWO:

De laatste jaren is hier echter steeds meer discussie over aan het ontstaan. Je krijgt daarover in de les een artikel van de docent. Je kunt het in theorie ook hier vinden:

https://www.nature.com/articles/nmeth.2698

Bayes

Fisher

Inleiding deel 2 van de module

In het 1e deel van deze module hebben we vooral aandacht gehad voor de theorie en een aantal basisvaardigheden, met name in Excel. In het tweede gedeelte gaan we de gereedschapskist waarmee je datasets te lijf kan uitbreiden. Vaak is het namelijk nodig meer te doen dan alleen de gemiddeldes te berekenen en een paar grafiekjes te maken. Je gaat je grafieken onderbouwen met statistische gegevens. In hoofdstuk 7, 8 en 9 komen methodes aan bod om verschillende soorten gegevens te analyseren.

  1. De eerste soort analyse (hoofdstuk 7) maakt gebruik van continue variabelen als onafhankelijke variabele. Dat zijn variabelen waarbij je een wiskundige bewerking kunt toepassen en het ook ergens op slaat. Bijvoorbeeld: de lengte van mensen kun je vermenigvuldigen met een getal en dan is het nog steeds een lengte en dan is dat verschil ook logisch (als je lengte * 1,2 doet, dan is het resultaat 1,2x zo groot. De methodes die hierbij horen zijn de regressie en de correlatie.
  2. De tweede soort vergelijkt groepen (hoofdstuk 8). We beperken ons in hoofdstuk 8 tot het vergelijken van 2 groepen. Meerdere groepen kan ook, maar lastig in Excel. Dit noemen we nominale variabelen. Groep 2 t.o.v. groep 1 zijn gewoon namen van groepen. Groep 2 is niet 2x groep 1. Je kunt dus op deze groepsvariabele geen wiskundige bewerking toepassen en dat het nog ergens op slaat. Let op, dit geldt dan voor de onafhankelijke variabele, wat er op de y-as staat (waar je de groepen op vergelijkt, bijv. cijfers die gehaald zijn) kan gewoon continue variabele zijn. Deze methodes zijn de verschillende t-testen.
  3. Dan is er nog een methode (hoofdstuk 9) en daarbij kunnen zowel de afhankelijke en onafhankelijke variabelen nominaal zijn. Als je bijvoorbeeld vergelijkt hoe vaak een haarkleur voorkomt in een klas zijn de mogelijke uitkomsten bijv. blond, bruin, zwart, rood, grijs. Grijs is niet 2x rood of 1,5x blond. Een wiskundige bewerking op deze mogelijke uitkomsten slaat dus nergens op. Het vergelijken van de aantallen keren dat de verschillende uitkomsten voorkomt doe je met de \(\chi^2-test\) (chi-kwadraattest).

Deze hoofdstukken geven je dan dus een basis om veel verschillende soorten gegevens juist te analyseren. Tijdens de lessen gaan we ook nog jullie profielwerkstukken bespreken om te kijken welke methode het beste bij jou gegevens past.

Een beslisschema voor de statistiek in deze module
Een beslisschema voor de statistiek in deze module

Hoofdstuk 7 - Regressie en correlatie

7.1 - Regressie

De regressie kennen jullie allemaal al, zonder dat je het weet. We gaan in deze paragraaf iets afwijken van alle andere paragrafen over statistische toetsen. We gaan hier namelijk niet toetsen of het effect significant is. Dat is niet goed mogelijk in Excel. De docent kan jullie dit desgewenst in een ander programma wel laten zien.

 

Bij de regressie kijk je of een bepaalde variabele (de onafhankelijke of voorspellende variabele) invloed heeft op een andere variabele (de afhankelijke of reactievariabele). De regressie maakt vervolgens een vergelijking van de vorm y=ax+b, waarbij x de voorspellende variabele is en y de reactievariabele.

 

Voorbeeld:

Stel dat je een onderzoekje aan het doen bent of het geven van extra kunstmest aan je planten de groeisnelheid vergroot. Je hebt 15 potjes gekocht, en kweekt in elk potje een plantje op. Je hebt een mooie reeks met kunstmestconcentraties gemaakt en elke pot krijgt steeds iets meer kunstmest. Je kunt nu kijken hoe groot het effect van het toevoegen van kunstmest is op je groeisnelheid. Zie onderstaande grafiek.

Figuur 29
Figuur 29

Je ziet in figuur 29 goed dat in de potjes waar meer kunstmest zat, de plantjes ook sneller groeien. Je ziet echter ook dat sommige potjes afwijken van wat de trend lijkt te zijn.

In onderstaande grafiek (figuur 30) zien we de trendlijn getekend in de grafiek.

Figuur 30
Figuur 30

Je ziet dat sommige punten heel dicht bij de lijn zitten, en sommige er ver vanaf. Je kunt in Excel ook de vergelijking van deze lijn laten zien door deze optie te selecteren bij het plusje en dan bij trendlijn ‘meer opties’ te kiezen.

Figuur 31
Figuur 31

Je ziet nu twee dingen in figuur 31 ingevoegd. Bovenaan zie je een vergelijking. Er staat dat met het toevoegen van 1 ml kunstmest per liter water er steeds gemiddeld 0,38 cm/week harder gegroeid wordt door de plantjes, waarbij de standaardgroei per week 4,4 cm/week is.

Er staat nog iets. Er staat R2= 0,4219. Dat betekent dat 42% van de variatie in je gegevens door de trendlijn voorspeld wordt. Als dit getal dicht bij 0 ligt, wordt er bijna geen variatie door de lijn voorspeld, als het getal dicht bij 1 ligt wordt bijna alle variatie door de lijn voorspeld. Als je wilt weten hoe dit getal wordt berekend, kan de docent je dit uitleggen, maar je hoeft dat niet te kunnen.

Je kunt je voorstellen dat als je een voorspelling doet, je graag zo goed mogelijk voorspelt. Een hoge R2 is dus prettig.

Je ziet hieronder een paar filmpjes. In het 1e filmpje wordt getoond hoe je de regressie in Excel uitvoert.

In het tweede filmpje wordt in detail getoond hoe de R-kwadraat berekend wordt.

In het derde filmpje wordt nog gedetailleerder getoond hoe de regressie tot stand komt.

Regressie in Excel

R-kwadraat met de hand

R-kwadraat detail

7.2 - Correlatie

Als er je analyse niet direct een variabele valt aan te wijzen die de ander voorspelt, zoals in de voorgaande opdrachten, en je toch wilt kijken of er een verband is, kun je de correlatie gebruiken.

Een correlatie test eigenlijk of twee getallenreeksen gelijk opgaan, of juist tegenovergesteld.

Een mooi overzicht van correlaties geeft het volgende figuur (figuur 32):

Figuur 32
Figuur 32

Het getal onder de grafieken geeft de grootte van de correlatiecoëfficiënt aan. Bij correlaties is de nulhypothese dat de correlatiecoëfficiënt 0 is. Dan is er namelijk geen verband tussen beide variabelen. Excel geeft ons de mogelijkheid dit te toetsen. Het grote verschil met regressies is dat bij een regressie altijd één variabele de andere beïnvloedt, maar niet andersom. Bij correlaties kan het effect beide kanten op zijn.  Een mooi voorbeeld van een correlatie geeft het volgende figuur (figuur 33):

Figuur 33
Figuur 33

Natuurlijk heeft het aantal woordjes dat een peuter praat geen invloed op hoe ver hij loopt, maar toevallig is er een verband. Het kan natuurlijk zijn dat dezelfde oorzaak voor het aantal woordjes ook het aantal stapjes veroorzaakt, maar dat wordt hier niet onderzocht.

 

Bij correlaties gebruiken we de trendlijnfunctie niet.

Correlatie in Excel

7.3 - Multipele regressie, ANOVA en F-test (VWO/verdieping)

Deze paragraaf is alleen voor VWO!

Bij de regressie gebruik je 1 onafhankelijke variabele om daarvan de invloed op de afhankelijke variabele te schetsen volgens:

\(y= ax+b + \epsilon\)

waarbij y je afhankelijke variabele is, x je onafhankelijke variabele, a de invloed van x op y, en b het basisniveau van y bij x=0. De laatste term is de foutterm, \(\epsilon\) staat voor error (griekse letter e, epsilon). Dat komt omdat je met die regressie nooit alle variatie in y kunt verklaren.

Maar er zijn niet veel situaties waarbij je maar 1 onafhankelijke variabele hebt. Ook heb je vaak groepsvariabelen als onafhankelijke variabele, bijvoorbeeld klas (waarvan je dan verschillende types hebt. Als je die situaties hebt kun je niet meer met Excel uit de voeten en zul je andere software moeten gebruiken. We komen later op deze software terug.

Hoe ziet het er dan uit qua formule?

Stel er zijn twee onafhankelijke variabelen:

\(y=ax_1+bx_2+c+\epsilon\)

Nu is a nog steeds de invloed van \(x_1\) op y, en is b de invloed van \(x_2\) op y en is c het startniveau van y (ook wel intercept genoemd) en weer de foutterm \(\epsilon\) .

Met drie variabelen:

\(y=ax_1+bx_2+cx_3+d+ \epsilon\) etc.

Het kan nu  best zijn dat variabele \(x_1\)een continue variabele is (iets wat je kunt meten) en dat \(x_2\)een nominale variable is (een variabele die verschillende groepen bevat).

Maar hoe weet je nou hoeveel variabelen je in zo'n model moet stoppen?

Daarvoor geldt eigenlijk het volgende: je probeert je variatie in y met zo min mogelijk variabele te beschrijven. Dus als een model met 3 variabelen eigenlijk niets beter uitlegt dan met 2 variabelen, kunt je beter het simpelere model gebruiken. Deze regel noemen ze ook wel Occam's scheermes.

Hoe test je dat dan? Dat kun je weer met de F-test doen, daarmee test je modellen die de data beschrijven ten opzichte van elkaar. Verschilt de uitleg van een complexer model niet significant van een simpeler model, maakt het dus niets uit en gebruik je het simpelere model en concludeer je dat die ene variabele die je net hebt weggelaten geen significante invloed heeft.

We komen uitgebreid op deze methodes terug in het hoofdstuk over programmeren met statistiek en R.

7.4 - Samenvatting

Regressie Correlatie
wel trendlijn geen trendlijn
x as is invloed, y as is beinvloed er is geen oorzaak gevolg relatie
functie y=ax+b correlatiecoefficient (r) van -1 tot 1
in excel geen p-waarde wel p-waarde
assen mogen niet omgedraaid assen mogen omgedraaid
R2: percentage verklaarde variatie op y-as door x-as  

 

Het doel van de regressie is het bepalen van de invloed van de ene (onafhankelijke) variabele op de andere (afhankelijke) variabele.

Het doel van de correlatie is het bepalen van het verband tussen twee variabelen zonder dat er gesproken kan worden van oorzaak-gevolg.

Hoofdstuk 8 - Groepen vergelijken

8.1 - Inleiding

Vaak als je onderzoek doet vergelijk je twee groepen met elkaar. Je vergelijkt mensen met en zonder een medicijn, twee klassen met elkaar, begrip voor of na een uitleg, hoeveelheid melk die gegeven wordt door koeien voor een toevoeging aan het voer en erna etc. etc. Belangrijk bij het vergelijken van groepen is dat je je gegevens op een bepaalde manier moet ordenen om juist gebruik te maken van bijvoorbeeld de functies van de draaitabel.

8.2 - Gegevens ordenen

Er zijn een aantal huisregels waar je je aan moet houden als je gegevens ordent. Die zijn er zodat als je gegevens uitwisselt met iemand anders er minder snel onduidelijkheid kan ontstaan.

De eerste vuistregel is dat gegevens die op hetzelfde moment van dezelfde 'agent' (of dat nu een mens, een dier of een zak chips is) op dezelfde rij staan.

De tweede vuistregel is dat gegevens die hetzelfde betekenen in dezelfde kolom staan. Dus als je bij 1000 mensen op 4 verschillende momenten in twee verschillende landen de lichaamstemperatuur hebt gemeten heb je 1 kolom lichaamstemperatuur. Zie hieronder voor hoe zo'n dataset eruit kan zien:

De derde vuistregel is dat je nooit zomaar gegevens mag verwijderen. Ook als er hele gekke uitschieters in je gegevens zijn mag dat niet zonder goede reden. Als je het wel doet, moet je nauwkeurig beschrijven wat je hebt verwijderd en waarom. Mocht het dan toch niet toegestaan zijn dan kan iemand anders dat altijd later lezen en eventueel repareren.

In dit filmpje kun je zien wat er anders kan gebeuren (laatste 8 minuten).

8.3 - Gepaarde T-test

Als je twee groepen met elkaar vergelijkt die dezelfde individuen bevatten, bijv. begrip van de stof voor of na een uitleg, is het handig om het gegeven dat je een individu meerdere keren meet te gebruiken voor je analyse. Stel, je geeft een klas een toets over zuur-base reacties om te kijken wat leerlingen er al van weten voordat je het gaat uitleggen. Stel dat het gemiddelde cijfer dan een 6 is. Het kan zijn dat als je dit na de uitleg weer test dat het gemiddelde 6,5 is geworden. Je zou dan kunnen concluderen dat de uitleg gewerkt heeft. Maar wat nou als er 1 leerling veel beter heeft gescoord en de rest allemaal iets slechter (het was een verwarrende uitleg). Je zou dan de verkeerde conclusie hebben getrokken.

 

Je ziet in onderstaande grafiek de hoeveelheid melk die 10 koeien (maar 10 koeien gebruiken voor zo'n onderzoek is natuurlijk niet heel betrouwbaar) geven voor en na de toevoeging van een extra stof aan het voer. De gemiddeldes op beide momenten zijn gelijk. Elk lijntje verbindt de meetpunten van 1 koe.

Je ziet dat de meeste koeien bij het tweede meetpunt minder melk geven en dat er 1 koe veel meer melk gaat geven. Dit soort gegevens noemen we gepaarde gegevens. Van elke koe zijn de meetpunten een paartje, ze horen bij elkaar. Vergelijk het eens met onderstaande figuur.

Je ziet hier dat op een na alle koeien meer melk geven en dat 1 koe volledig de weg kwijt is. Als je nu gewoon naar de gemiddeldes had gekeken had je dit niet opgemerkt. De t-test voor gepaarde gegevens houdt rekening met de verandering per individu tussen twee meetmomenten en gebruikt dat om iets te zeggen over de groepsverschillen en dus het effect van de tijd of wat je dan ook doet tussen de twee momenten in.

 

Je gebruikt hiervoor de functie =t.test( , vervolgens selecteer je de beide groepen (voor en na), vervolgens typ je een 2. Je krijgt nu van excel de keus tussen 3 mogelijkheden: 1) gekoppeld, 2) 2 steekproeven met gelijke variantie, 3) 2 steekproeven met ongelijke variantie. Je kiest hier 1.

Het getal dat verschijnt nadat je op enter hebt gedrukt is de kans dat met deze data H0 waar is.  Als deze kans kleiner is dan 0,05 mag je zeggen dat er een significant verschil is tussen de twee meetmomenten. Als dat zo is, moet je ook beschrijven wat dat verschil dan is.

T-test gekoppeld

Je ziet uit bovenstaande vraag het belang van het meenemen van gepaardheid van gegevens. Je bent dan namelijk veel beter in staat om te zeggen of er een effect is met de tijd.

Je zult zien dat je straks uit de vragen zult moeten afleiden of er sprake is van gepaarde gegevens. Als je leest dat er metingen voor en na een bepaalde behandeling gedaan worden en die vergeleken moeten worden, of dat ze individuen na een lange tijd weer meten, dan moet je beseffen dat je met gepaarde gegevens te maken hebt.

8.4 - Ongepaarde T-test

Als je twee groepen met elkaar vergelijkt waarin niet dezelfde individuen in beide groepen voorkomen, dan betekent het dat die groepen onafhankelijk van elkaar zijn. Als je wilt weten of de ene groep statistisch verschilt van de andere gebruik je de t-test. Ook hierbij geeft Excel je een kans op het onterecht verwerpen van H0. Je hebt misschien echter in de vorige paragraaf al gezien dat er twee t-testen zijn voor onafhankelijke steekproeven (groepen). Eentje waarbij de groepen een gelijke variantie hebben en eentje waarbij dat niet zo is.

Misschien weet je nog uit hoofdstuk 3 dat de variantie de standaardafwijking in het kwadraat is. Als je dus twee groepen met elkaar vergelijkt met een t-test, moet je ook altijd even van beide groepen de standaardafwijking berekenen. Dit kan heel makkelijk met Excel. Als deze standaardafwijkingen ongeveer even groot zijn mag je de t-test voor gelijke variantie gebruiken en als ze erg verschillen moet je de t-test voor ongelijke variantie gebruiken. Nu is de vraag: wanneer verschillen ze genoeg?

Hier is geen duidelijk antwoord op te geven. Houd voor deze module als vuistregel aan dat als ze meer dan een factor 2 van elkaar verschillen (ongeveer) dat ze dan als ongelijk moeten gebruikt worden. Wat je ook kunt doen is beide opties proberen. Als de verschillen in variatie heel klein zijn is het verschil tussen beide testen namelijk ook heel klein. Als er dan verschillen zijn kun je het beste de toets voor ongelijke variantie gebruiken.Bij de toets voor ongelijke variantie kan het nooit misgaan.

T-test gewoon

T-Test verdieping 1

T-test verdieping 2

8.5 - Niet-normaal verdeelde gegevens

De t-testen die je hierboven hebt geleerd gelden eigenlijk alleen maar als de gegevens normaal verdeeld zijn. Nu is het zo dat je bij heel veel gegevens er vaak wel van uit kunt gaan dat ze normaal verdeeld zijn en dat het bij heel weinig gegevens toch niet zoveel uitmaakt (je krijgt dan door de kleine hoeveelheid gegevens toch meestal onbetrouwbare resultaten).

Het blijkt zo te zijn dat als je grote steekproefgroottes gebruikt, de groepsgemiddeldes vaak (bij benadering) als normaal verdeeld beschouwd mogen worden (de afwijking heeft dan weinig gevolgen voor je statistische conclusies). Dit noemen ze de wet van de grote aantallen https://nl.wikipedia.org/wiki/Wetten_van_de_grote_aantallen

Kortom: zorg dat je genoeg gegevens verzamelt!

8.6 - Samenvatting

In dit hoofdstuk heb je gezien dat het goed structureren van je gegevens (in rijen en kolommen) helpt om de functies van de draaitabel te kunnen gebruiken voor het maken van grafieken.

Verder heb je twee methodes geleerd, de gepaarde en ongepaarde t-test.

De gepaarde t-test gebruik je als je van dezelfde individuen in verschillende situaties (bijv. voor en na een uitleg) gegevens vergelijkt. Hiermee krijg je dus inzicht in een verandering van een groep waarbij je rekening houdt met dat je dezelfde individuen onderzoekt.

De ongepaarde t-test gebruik je om groepen te vergelijken waarbij de individuen in de ene groep niet dezelfde zijn als in de andere groep.

 

Een term die vaak voorkwam is 'significant verschil'. Dit is vaktaal. Het betekent dat een verschil dat je ziet tussen de groepen geen toeval is, maar een echt verschil. Dat is het geval als de kans op H0 kleiner is dan 0,05.

Hoofdstuk 9 - Chi-kwadraattest

Deze test is eigenlijk de makkelijkste statistische test, die je in bijna alle situaties kunt toepassen. Bij deze test toets je namelijk of datgene wat je waarneemt statistisch significant afwijkt van wat je verwacht.

 

Een voorbeeld: stel ik gooi 100x een munt op. Dan verwacht ik dat er 50x kop en 50x munt uit komt. Nu krijg ik 43x kop en 57x munt. Is mijn munt raar is dit toeval?

Je kunt dit onderzoeken met de Chi-kwadraattest. Veel statistische testen werken alleen met schaalgegevens of continue. Dat zijn gegevens zoals lengte, temperatuur, hoogte etc. Allemaal grootheden die je op een bepaalde manier kunt meten en waarbij een 2x zo groot getal ook echt iets zegt. Als je wilt onderzoeken of een zak m&m’s meer snoepjes van een kleur heeft dan van een andere kun je die niet gebruiken, want de mogelijke opties van kleur zijn: rood, bruin, groen etc. Die verschillende mogelijke waarden staan niet kwantitatief tot elkaar maar kwalitatief. Of als je wilt weten of een bepaalde naam vaker voorkomt dan een andere. Zulke gegevens noemen we nominale gegevens. De Chi-kwadraattest kun je altijd voor nominale gegevens gebruiken. De conclusie is echter ook beperkt. Je kunt alleen maar een conclusie trekken of de waarneming statistisch significant afwijkt van je verwachting.

Hoe voer je deze test uit?

Stappenplan Chi-kwadraat test:

  1. Bereken de totalen per rij en kolom.
  2. De verwachting gaat berekend worden volgens jouw hypothese. Als je verwacht dat de kans op alle mogelijke uitkomsten gelijk gaat zijn (t.o.v. hoe veel gegevens er zijn) kies je onderstaande methode.
  3. Je deelt het totaal van een kolom te delen door het totaal van de hele tabel, en dit te vermenigvuldigen met hoeveel er totaal in een rij staan. Door met F4 ofwel de rij of de kolom vast te zetten, kun je zo’n tabel heel makkelijk maken.
Het berekenen van de verwachting voor 5H1 en hoeveel katten er verwacht worden.
Het berekenen van de verwachting voor 5H1 en hoeveel katten er verwacht worden.

Hoe kopieer je nu de functie op een juiste manier naar de andere cellen, zonder dat er de verkeerde uitkomsten komen te staan?

Als je de functie gewoon kopieert naar rechts of beneden, dan verplaatst ook de verwijzing zich, zoals je hieronder ziet.

Door de verwijzing naar de verschillende cellen op een verschillende manier vast te zetten kun je voorkomen dat de verwijzing verkeerd verplaatst.

Je ziet hieronder dat bij de cel D5 er nu een $ staat voor de 5 (D$5). Dat betekent dat rij 5 vast staat, en dat de D wel nog kan veranderen in een C of E etc. Dat betekent dat de verwijzing wel naar rechts en links kan verplaatsten, maar niet naar boven of beneden. Omdat we steeds willen verwijzen naar de totalen van de kolommen (die naast elkaar staan) is dit handig.

Je ziet ook dat we bij F5 zowel de F als de 5 vastzetten ($F$5). Daarmee kan de verwijzing helemaal niet verplaatsen. Bij de F4 hebben we alleen de kolom vastgezet, hij kan dus wel omhoog en omlaag verplaatsen maar niet naar links of rechts ($F4). Let op, je ziet hier het resultaat van iets dat ik in cel B9 heb aangepast en wat dit voor gevolg had voor cel D11.

  1. Je hebt nu twee tabellen, één met de waarnemingen en één met de verwachtingen op basis van gelijke frequenties.
  2. Kies een lege cel en typ daar het volgende in: =chi.toets(

Je moet nu eerst de waarnemingen selecteren met je muis. Daarna typ je een puntkomma en selecteer je de verwachtingen. Haakje sluiten en enter geeft de kans op het onterecht verwerpen van H0. Dit is dus de kans dat je zegt dat er verschil is, terwijl er eigenlijk geen verschil is. Als deze kans kleiner is dan 0,05 mag je zeggen dat de kans klein is dat jouw waarnemingen voor kunnen komen als de nulhypothese waar is. Dan is hij waarschijnlijk dus niet waar.

Chi-kwadraattest 1

Chi-kwadraattest 2

Hoofdstuk 10 - Betrouwbaarheidsinterval en standaardfout (VWO)

10.1 - Inleiding

De standaardafwijking geeft informatie over de spreiding binnen de populatie. Meestal gebruik je echter een steekproef van een grotere populatie. Daar zijn ook twee statistieken voor beschikbaar die vaak gebruikt worden. De standaardfout en het betrouwbaarheidsinterval.

10.2 - Standaardfout

Als je van een steekproef van een populatie een gemiddelde berekent is de kans groot dat als je weer een steekproef neemt van dezelfde populatie dat gemiddelde niet precies hetzelfde is.

Je ziet bijvoorbeeld in de figuur hieronder de waarde van een gemiddelde van een populatie van 10.000 personen (de rode stip) en de gemiddeldes van 100 steekproeven van 20 personen (de zwarte stippen. 

Als het goed is zie je dat niet al die gemiddelde gelijk zijn. Er is dus een bepaalde fout als je een gemiddelde berekent van een steekproef. Deze fout wordt door twee zaken beïnvloed. 

  1. De standaardafwijking van de populatie
  2. De steekproefgrootte

Dat zijn dus precies de twee belangrijkste concepten van hoofdstuk 1!

Als de variatie van de populatie groot is, zullen er per toeval steeds verschillende waarden in je steekproef terecht komen. Je ziet hieronder twee figuren waarbij hetzelfde gebeurt als bij de figuur hierboven. Alleen nu is links de standaardafwijking groot (12), en rechts is hij klein (3).

In het 1e figuur van deze paragraaf was overigens de standaardafwijking 6. 

Je ziet dat een grotere standaardafwijking in de populatie dus meer variatie oplevert in het gemiddelde van de steekproef. Nu de steekproefgrootte.

Je ziet hieronder weer twee figuren. De standaardafwijking is bij beiden 6. Nu is alleen links de steekproefgrootte 10, en rechts is hij 30 (en hierboven was het steeds 20).

 

Je ziet: een kleinere steekproef levert meer variatie op in het gemiddelde van die steekproef.

Deze fout van het gemiddelde noemen we de standaardfout (in het Engels standard error, (s.e.)). Deze standaardfout wordt vaak getoond bij een gemiddelde. Hoe bereken je nu die standaardfout?

Heel makkelijk.

Je pakt de standaardafwijking van de populatie en deelt deze door de wortel van de steekproef (let op: dit geldt alleen voor normaal verdeelde gegevens).

\(standaardfout= {\sigma\over{\sqrt n}} \)

Meestal weet je echter niet de standaardafwijking van de populatie (\(\sigma\)), maar alleen die van de steekproef (\(s\)). Je mag dan het volgende doen:

\(standaardfout= {s\over{\sqrt n}} \)

(dit lijkt hetzelfde, maar het is het niet. Voor jullie is het onderscheid op dit moment niet megabelangrijk)

De standaardfout geeft dus aan hoe zeker je ervan bent dat het gemiddelde uit jouw steekproef een betrouwbare indruk geeft van de populatie. Belangrijk om te beseffen is dat de standaardafwijking van je populatie niet verandert als je een grotere steekproef neemt, maar je standaardfout wel!

Daarom is het vaak in grafieken beter om op de foutbalken de standaardfout te tonen i.p.v. de standaardafwijking. Het bevat namelijk zowel informatie van de standaardafwijking als van de steekproefgrootte. Je ziet hieronder hoe je dat weergeeft (we gebruiken de eerdere steekproeven van 10 en 30). Ter vergelijking hebben we in het rood ook nog even de standaardafwijking van beiden erin getekend.

10.3 - Betrouwbaarheidsinterval

Bij de standaardafwijking weet je dat bij de populatie 68% van je gegevens binnen 1 standaardafwijking van het gemiddelde ligt. Bij de standaardfout gaat er zo'n zelfde regel op. Meestal wordt daarvoor het 95% betrouwbaarheidsinterval gebruikt. Dat wil zeggen dat je met 95% zekerheid weet dat een gemiddelde binnen dat interval valt. Om dit interval te berekenen heb je de standaardfout nodig.

Ook heb je een Z-waarde nodig (bij de normale verdeling). Op de achtergrond van Z gaan we hier niet in (we houden het leuk).

Betrouwbaarheidsinterval Z
80% 1,282
85% 1,440
90% 1,645
95% 1,960
99% 2,576
99,5% 2,807
99,9% 3,291

 

 

 

 

 

 

 

Het betrouwbaarheidsinterval kunnen we dan definiëren als:

\(\overline x \pm Z\cdot {s\over \sqrt{n}}\)

Dus stel dat van een steekproef de standaardafwijking van 3 is, de steekproefgrootte 45 en het gemiddelde 22. De standaardfout is dan 0,45. Het 95% betrouwbaarheidsinterval is dan dus

\(22-1,960\cdot0,45 \ tot\ en \ met\ 22+1,960\cdot0,45\)

dus van 21,12 tot en met 22,88. Als je 100 keer een steekproef neemt en het betrouwbaarheidsinterval berekent, omvatten (circa) 95% van die intervallen het echte populatiegemiddelde.

Als je gemiddelden van groepen in stafdiagrammen weergeeft, en je geeft bij dat gemiddelde het 95%betrouwbaarheidsinterval op de foutbalken, en de foutbalken overlappen elkaar niet, weet je eigenlijk al zeker dat de groepen significant verschillen. Door dat weer te geven in een grafiek kan de lezer die conclusie direct al trekken.

 

10.4 - Opgaven

10.5 - Samenvatting

Hoofdstuk 11 - Programmeren met statistiek (VWO)

11.1 - Inleiding

Je hebt tot nu toe veel statistische methodes gebruikt die allemaal vrij bewerkelijk zijn. Je zult jezelf af en toe hebben afgevraagd: hoe ben ik nu tot dit resultaat gekomen (welke stappen). Ook zul je al een aantal keer hebben gedacht: "Ja, dit heb ik net ook al gedaan". Voor deze twee problemen is er een oplossing: programmeren met statistiek. In dit hoofdstuk gaan jullie experimenteren met R, dat is wereldwijd de meest gebruikte software voor statistische analyses.

11.2 - R

R is een open-source programmeeromgeving die op dit moment de standaard aan het worden is de wetenschappelijke wereld als het gaat om datavisualisatie en statistische analyses. De reden hiervoor is dat elke nerd die kan programmeren software kan schrijven (packages genaamd) voor specifieke analyses, die dan weer door anderen gebruikt kan worden. Op dit moment zijn er 14924  van die packages. Het is een relatief eenvoudig te leren taal en het is moeilijk om er echt goed in te worden. Dat kost je jaren. Maar het begin is makkelijk gemaakt en dat gaan we hier doen.

Je kunt R downloaden vanaf de volgende website: https://www.r-project.org/ . Vervolgens volg je de aanwijzingen. Je moet een server kiezen om het vanaf te downloaden, en het is handig er één in de buurt te kiezen (Munster of Gent, de server in Utrecht is dood).

Als je R geïnstalleerd hebt (ik ga er even vanuit dat je weet hoe je software installeert op je laptop, als je dat niet kunt moet je daar z.s.m. zelf achter komen) en je start het krijg je het volgende fantastische scherm te zien (afhankelijk van Mac of Windows en je installatiekeuzes kan dit iets afwijken):

 

Dit is de graphical user interface (GUI). Dit is een enigszins misleidende naam, want grafisch ziet het er niet echt spannend uit en gebruiksvriendelijk is het ook niet echt. Er zijn allerlei programma's die R er mooier uit laten zien om omwille van de uniformiteit houden we het bij deze variant.

De eerste stap is een script aanmaken, en dat kan door op File-> new script te klikken. Dat ziet er dan zo uit:

 

We hebben een paar packages nodig. Typ in het scriptvenster dit in:

install.packages("ggplot2")

install.packages("sciplot")

Selecteer vervolgens die regels en druk op CTRL-R (windows) of bij het edit-menu op run line or selection. De regels worden nu uitgevoerd.

Je wordt nu gevraagd een server te kiezen, kies een server dichtbij. Als het goed is gaat R packages installeren. Dit zijn packages die we af en toe nodig hebben.

Deze functies werken nu echter nog niet. Je moet ze ook nog activeren. Dat doe je als volgt:

library(sciplot)

library(ggplot2)

Ok, laten we eerst eens gegevens downloaden. Het mooie is dat als je weet hoe je dit doet, je veel klikwerk kunt besparen.

Type in het scriptvenster:

gegevens<- read.table("https://maken.wikiwijs.nl/bestanden/934023/gegevens%20r1.csv", sep=";", dec=",", header=TRUE)

Selecteer vervolgens die regel en druk op CTRL-R (windows) of bij het edit-menu op run line or selection. Deze code gaat vervolgens naar de programmeeromgeving en hij haalt van de wikiwijs-site een bestand op, en zet dat weg met als naam "gegevens".

Type "gegevens" in en voer deze lijn weer uit. Je ziet nu onderstaand beeld:

 

 

11.3 - gegevens ophalen en regressie in R

We hebben een dataset waar 2 groepen inzitten en een bepaalde gemeten waarde. Typ:

bargraph.CI(gegevens$Groep, gegevens$Waarde,  ylab="Waarde", xlab="Groep")

Je ziet nu een grafiek verschijnen met de gemiddeldes per groep en de standaardfout op de foutbalken. Dat is sneller dan in Excel!

Deze grafiek laat de standaardfout zien op de foutbalken. Voor het 95% betrouwbaarheidsinterval moeten we het volgende eerst definiëren:

qt.fun <- function(x) qt(p=.975,df=length(x)-1)*sd(x)/sqrt(length(x))
my.ci <- function(x) c(mean(x)-qt.fun(x), mean(x)+qt.fun(x))

Deze functie is een eigen functie die het 95% betrouwbaarheidsinterval berekent.

Als je nu dit typt:

par(mfrow=c(1,2))
bargraph.CI(gegevens$Groep, gegevens$Waarde,  ylab="Waarde", xlab="Groep")
bargraph.CI(gegevens$Groep, gegevens$Waarde,  ylab="Waarde", xlab="Groep", ci.fun=my.ci)

Zie je een grafiek verschijnen met links de standaardfout op de foutbalken, en rechts het 95% betrouwbaarheidsinterval.

Nu halen we nieuwe gegevens op:

gegevens2<- read.table("https://maken.wikiwijs.nl/bestanden/934035/gegevens%20r2.csv", sep=";", dec=",", header=TRUE)

Dit is een dataset waarbij we een onafhankelijke en afhankelijke variabele hebben. We gaan nu een simpele regressie maken. Dat doen we met de functie lm, dat staat voor linear model, de Engelse term voor regressie. In een linear model kun je de invloed van 1 of meer onafhankelijke variabelen op een afhankelijke variabele bepalen.

Typ het volgende:

model1<- lm(gegevens2$Onafhankelijk~gegevens2$Afhankelijk)

summary(model1)

Je krijgt nu een tabel te zien met de uitkomsten van een linear model:

 

Je ziet bij

  1. De schatting van b van de formule y=ax+b
  2. De schatting van a van de formule y=ax+b
  3. De schatting van de standaardfout van beiden
  4. De p-waarde van deze schatting van a. Deze is duidelijk kleiner dan 0,05, dus de kans dat we hier onterecht zouden zeggen dat er een significant effect is, is nogal klein.
  5. De R-kwadraat

11.3 - R en grafieken

Een van de mooiste grafieken is de boxplot. Veel informatie op weinig ruimte.

Typ:

voorplot<- read.table("https://maken.wikiwijs.nl/bestanden/934933/structuur%20gegevens.csv", header=TRUE, dec=",", sep=";")

En typ dan:

boxplot(voorplot$Lichaamstemperatuur, ylab="Lichaamstemperatuur")

Je ziet nu een prachtige boxplot verschijnen. Maar als je

summary(voorplot) typt zie je dat er verschillende variabelen zijn in deze dataset, namelijk ook nog land en moment.

Je kunt heel makkelijk de boxplot meer informatie laten vertellen door een afhankelijkheid te formuleren:

boxplot(voorplot$Lichaamstemperatuur~voorplot$Land, ylab="Lichaamstemperatuur")

Het golfje (tilde) geeft aan dat temperatuur afhankelijk is van land. Je kunt met het vermenigvuldigingsteken (*) of de dubbele punt (:) ook een combinatie van factoren gebruiken om conditionele boxplots te maken.

 

Een andere grafiek is het spreidingsdiagram (Engels: scatter plot). Plot is Engels voor grafiek.

Hier is een simpel commando voor:

plot(x, y)

Dus bijvoorbeeld voor twee groepen random gegevens gegenereerd met

afhankelijke<- rnorm(100,10,2) (hier worden 100 getallen gegenereerd met een gemiddelde van 10 en een standaardafwijking van 2)

onafhankelijke<- c(1:100) Dit geeft een reeks van 1 tot 100.

En dan:

plot(onafhankelijke, afhankelijke)

Aan zo'n grafiek kun je een hoop dingen wijzigen, de naam van de x-as, de minima en maxima van de assen, de kleur van de punten, het soort punten (rondjes, vierkantjes etc.). Als je

?par typt krijg je het helpmenu met alle opties voor grafieken. Die kun je toevoegen aan het plot commando. Bijv.: als je de kleur van de punten wil wijzigen voeg je een "col=" commando toe:

plot(onafhankelijke, afhankelijke, col="red")

Stel dat je door deze punten een trendlijn wil trekken. Dan moet je eerst die trendlijn bepalen. Zoals je misschien nog weet doe je dat met het lm commando.

trendlijn<- lm(afhankelijke~onafhankelijke)

als je nu summary(trendlijn) typt krijg je de statistieken voor deze lijn.

Maar als je abline(trendlijn) typt, voegt dit commando de bepaalde lijn toe aan de grafiek.

Een andere simpele grafiek is de histogram. Dit is heel eenvoudig:

hist(afhankelijke)

Je kunt ook het aantal staafjes nog beinvloeden door dit te typen:

hist(afhankelijke, breaks=20)of

hist(afhankelijke, breaks=40)

We hebben eerder al de grafieken gezien met de standaardfout of het 95% betrouwbaarheidsinterval. Even herhaald:

gegevens<- read.table("https://maken.wikiwijs.nl/bestanden/934023/gegevens%20r1.csv", sep=";", dec=",", header=TRUE)

library(sciplot) Dit is belangrijk anders herkent hij bargraph.CI niet.

bargraph.CI(gegevens$Groep, gegevens$Waarde,  ylab="Waarde", xlab="Groep")

 

11.4 - R en statistiek - deel 1

We hebben al even naar de statistieken van regressies gekeken. Hierboven is een simpel model gemaakt, en je hebt gezien hoe je bij een boxplot meerdere variabelen kunt combineren in een model. Dat geeft veel mogelijkheden voor regressies met meerdere variabelen.

We gaan hier dieper in op de t-testen. t-testen zijn testen die in de gewone praktijk niet zo vaak voorkomen. Het is bijna nooit zo dat je groepen zo maar 1 op 1 kunt vergelijken. Er zijn heel vaak andere variabelen die een rol spelen. Typ dit:

voorplot<- read.table("https://maken.wikiwijs.nl/bestanden/934933/structuur%20gegevens.csv", header=TRUE, dec=",", sep=";")

Nu heb je gegevens waarin zich twee groepen bevinden, namelijk de twee landen. We gaan testen of die groepen verschillen.

Typ:

t.test(voorplot$Lichaamstemperatuur~voorplot$Land, paired=FALSE)

Dit commando voert een t-test uit, van lichaamstemperatuur per land, en het is een ongepaarde test. Je krijgt nu het volgende scherm:

Je ziet rechtsbovenin de kans op onterecht verwerpen van H0, in dit geval 0,06. We mogen H0 dus niet verwerpen, er lijkt geen verschil te zijn.

Je ziet daaronder het 95% betrouwbaarheidsinterval, in 95% van de gevallen ligt het verschil tussen deze twee groepen binnen deze waarden. Je ziet dat de ondergrens lager is dan 0 en de bovengrens hoger, 0 zit tussen deze grenzen, vandaar dat er geen significant verschil is.

Verder zie je de gemiddeldes van beide groepen. Je ziet ook direct dat de verschillen erg klein zijn.

Met 1 regeltje krijg je dus ontzettend veel informatie.

We gaan nu even alleen Nederland selecteren:

Nederland<- voorplot[voorplot$Land=="Nederland",]

Hier geef je aan dat van voorplot we alle regels gaan selecteren waarvan de variabele "Land" gelijk is aan Nederland. Binnen vierkante haakjes binnen R wordt namelijk voor de komma de regels aangegeven en na de komma de kolommen.

Binnen Nederland hebben we namelijk 4 momenten van dezelfde personen.

Als we nu eens de 1e twee momenten selecteren op dezelfde manier als hierboven.

Vervolgens willen we weten of deze personen een verandering in de tijd laten zien in hun temperatuur. Hiervoor kunnen we de gepaarde t-test uitvoeren tussen moment 1 en moment 2.

11.4 - R en statistiek - deel 2

We gaan nu naar de regressie en correlatie kijken. We beginnen even met de correlatie. Die is nogal makkelijk in R.

De simpele versie is

cor.test(var1,var2)

Probeer maar eens:

var1<- rnorm(100,10,2)
var2<- rpois(100,4)

cor.test(var1,var2)

plot(var1,var2)

Je krijgt nu in het ene scherm de statistieken en in het andere scherm de grafiek.

Bij jullie ziet deze grafiek er anders uit, omdat we random gegevens genereren.
Bij jullie ziet deze grafiek er anders uit, omdat we random gegevens genereren.
Resultaten correlatie
Resultaten correlatie

Je ziet rechtsboven de p-waarde van de correlatietest. Deze is in dit geval veel groter dan 0,05 er is dus geen significante correlatie. Daaronder zie je de correlatiecoefficient, deze is heel dicht bij 0, en dat is mooi in lijn met die kans hierboven. Als je

?cor.test typt, krijg je meer opties te zien. Met name de optie "method" is interessant. Standaard kiest hij de Pearson correlatie. Dit is een correlatietest voor normaal verdeelde gegevens.

Met method="spearman" krijg je de Spearman correlatie. Deze rangschikt eerst de gegevens en doet dan op die rankings een correlatie. Deze gebruik je als je gegevens niet-normaal verdeeld zijn.

 

Een mooie functie is pairs. Hiermee kun je heel snel van heel veel verschillende variabelen de spreidingsdiagrammen zien. Let op, er ligt hier wel een gevaar op de loer dat gaat vissen naar significante gegevens. Je hoort wel eerst een duidelijke verwachting te hebben voordat je gaat testen.

Probeer eens:

pairs(USJudgeRatings)

of overzichtelijker:

var1<- rnorm(100,10,2)
var2<- rpois(100,4)
var3<- rgamma(100,3)
var4<- rgamma(100,7)
var5<- rnorm(100,20,4)
var6<- var1 + rnorm(100,0,2)

pairs(~var1+var2+var3+var4+var5+var6)

Je ziet nu meteen dat er bij sommige grafieken wel een verband lijkt te zijn. De volgende functie kun je gebruiken om dan ook meteen per combinatie (per pair) de correlatiecoefficient te berekenen.

panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
   usr <- par("usr"); on.exit(par(usr))
   par(usr = c(0, 1, 0, 1))
   r <- abs(cor(x, y))
   txt <- format(c(r, 0.123456789), digits = digits)[1]
   txt <- paste0(prefix, txt)
   if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
   text(0.5, 0.5, txt, cex = cex.cor * r)
}

Kopieer dit en voer het uit.

En typ nu:

pairs(~var1+var2+var3+var4+var5+var6,  upper.panel = panel.cor)

 

11.4 - R en reproduceerbaarheid

11.5 - Samenvatting

Hoofdstuk 12 - Data exploratie

12.1 - Metadata

Als je grotere datasets te pakken kunt krijgen is dat vaak een goudmijn om te kunnen analyseren. Er zit veel informatie in en die moet je er alleen nog evenuit weten te halen. Er zijn diverse databanken online te vinden zoals bijv: https://opendata.cbs.nl/statline/portal.html?_la=nl&_catalog=CBS
of https://waves.databank.nl/. Vaak als je via zo'n portal data download zijn er veel variabelen op een ingewikkelde manier gecodeerd. Er zijn vaak 10-tallen kolommen met niet zulke duidelijk namen, en binnen kolommen zijn vaak groepen weergegeven met coderingen met nummers waar je niet zo maar van kan zien wat het is. Het kan bijv. zijn dat de codering binnen zo'n dataset voor mannen niet 'mannen' is, maar '3000'. En voor vrouwen dan '4000'.

Om daar wijs uit te worden is er vaak de metadata. Dat is een bestand dat uitlegt hoe de data gelezen moeten worden. Zonder de metadata te begrijpen kun je de data niet begrijpen en analyseren!

12.2 - Data exploratie

Als je zo'n dataset van bijv. het CBS download zie je dat het ander soort data zijn (data zijn meervoud) dan we verder in deze module zien. Bij de andere opdrachten zien we steeds alle gegevens, waarvan jij dan gemiddeldes en bijv. standaardafwijking kunt berekenen en als het gegevens van een steekproef zijn dan kun je er statistische conclusies uit trekken.

Deze data zijn anders. Vaak zie per groep alleen het gemiddelde gegeven, of een percentage. Dat betekent dat er eigenlijk heel veel werk al voor jou gedaan is. Maar dat betekent ook dat we er dus geen hypothese-toetsende-statistiek op los kunnen laten. Dat is de statistiek van hoofdstuk 7 tot en met 9. Er is een onderzoeksvraag, en je kunt een H0 opstellen, en met je statistiek kun je kijken of die hypothese verworpen mag worden.

Met dit soort grote datasets betreft het meer beschrijvende statistiek. Als je wilt weten hoeveel procent van de mensen wekelijks contact heeft met zijn ouders en dat blijkt uit een hele grote steekproef 43 % te zijn, dan is dat dus zo. Wel is er vaak een onzekerheid over dit percentage (zie het hoofdstuk over de betrouwbaarheidsintervallen (10.2 & 10.3).

Intermezzo - Grafieken en datavisualisatie

Statistische analyses zijn 1 ding, maar het is vaak ook belangrijk om je gegevens visueel in grafieken te laten zien.

Hier komt informatie die je daarbij gaat helpen en ook een opdracht die je ermee laat oefenen. Komt z.s.m.

Principes van goede visualisatie van gegevens

Bij de volgende punten worden hierna voorbeelden getoond.

  1. Als je een grafiek maakt, denk dan na over je publiek. Als je de grafiek maakt voor jezelf om een idee te krijgen van je gegevens, gebruik je andere grafieken dan als je een presentatie voor publiek gaat maken.
  2. Laat zoveel mogelijk de ruwe gegeven zien. Een gemiddelde vertelt alleen het gemiddelde, een histogram laat al meer zien van de 'echte' gegevens, en een spreidingsdiagram laat alles zien.
  3. Gebruik nooit cirkeldiagrammen. Ze zijn lastig af te lezen, je kunt geen spreiding aangeven en  je kunt moeilijk cirkeldiagrammen vergelijken.
  4. Zorg dat je staafdiagrammen op de y-as bij 0 laat beginnen.
  5. Verander nooit de hoeveelheden die getoond worden. Stel je wilt het inkomen laten zien en je gebruikt i.p.v. een staafdiagram de grootte van een muntje. Als je de straal van het muntje twee keer zo groot maakt, neemt de oppervlakte van dat muntje met pi*r2 toe. Daardoor lijkt de toename groter dan hij eigenlijk is. Hiermee fop je je publiek.
  6. sorteer je grafieken op een logische manier. Als je bijv. de gemiddelde cijfers in veel verschillende klassen wilt tonen, sorteer dan van het laagste gemiddelde naar het hoogste gemiddelde (of andersom). Op die manier is direct te zien waar het cijfer het hoogste of laagste is. Sorteren op klassennummers is doelloos.
  7. Bij het vergelijken van grafieken: gebruik dezelfde assenverdelingen en zet histogrammen boven elkaar en staafdiagrammen naast elkaar.
  8. Dingen die je met elkaar wilt vergelijken moet je naast elkaar zetten.
  9. Kleur gebruiken kan fijn zijn, maar denk aan kleurenblinde mensen. Teveel kleur maakt een grafiek te wild.

Een goede manier om je gegevens eerst eens te bekijken is met een boxplot. Een boxplot is een grafiek waarmee je snel de spreiding in je gegevens kunt tonen.

Boxplot
Boxplot

Je ziet een vierkant, met daaronder twee foutbalken en buiten die foutbalken puntjes.

We beginnen onderaan. Onder de onderste foutbalk (rode lijn) bevindt zich 2,5% van je gegevens. De onderkant van het vierkant (blauwe lijn) geeft het 25e percentiel. Hieronder zit 25% van je gegevens. Onder de dikke streep in het vierkant (beige lijn) zit 50% van je gegevens (de mediaan dus, maar soms laat men hier het gemiddelde zien). Aan de bovenkant van het vierkant (groene lijn) zit het 75e percentiel, hieronder zit dus 75% van je gegevens.Onder de bovenste foutbalk (gele lijn) zit 97,5% van je gegevens. Dat betekent dat we boven die lijn nog 2,5% over hebben, net als onder de onderste foutbalk.
Bij Wiskunde A wordt jullie iets anders geleerd. 1) Jullie maken de boxplot op zijn zij. Dat is raar, want op een y-as zet je dat wat je gemeten hebt. Dan is het raar om dat bij een boxplot anders te doen. 2) Jullie leren dat de foutbalken aangeven wat het laagste punt is en wat het hoogste punt is. Er zijn verschillende manieren van het maken van een boxplot en wat de lijntjes aangeven.Het is dus belangrijk bij de grafiek goed te beschrijven wat er wordt getoond.

Oefenopdrachten

Opdrachten

Je ziet hieronder een aantal Exceldocumenten. In elk document staan gegevens, en wordt uitgelegd wat de situatie is. Ook staan er hulpmiddelen (zoals bijv. voor een eventuele correlatie). Jij moet zelf ontdekken welke methode je moet gebruiken en moet alle vraagstukken oplossen. Dit lijkt op de manier waarop het bij het SE getoetst wordt. Elke opdracht moet je eerst met de docent besproken hebben voordat je door kunt met de volgende.

Hieronder staat het oefendocument voor de opdracht van 6vwo over R.

Antwoorden

Oefentoets

In Teams staat bij de opdrachten een oefenschoolexamen klaar. Bij de laatste 3 vragen heb je onderstaande bestanden nodig. Je kunt de oefentoets niet tussentijds opslaan dus je moet hem in 1x afmaken. De oefentoets maak je individueel alsof het een echte toets is. De resultaten worden gebruikt om tijdens de laatste lessen de puntjes op de i te zetten.

In een enkel geval worden de figuren in Forms niet goed getoond, in dat geval moet je het scherm even opnieuw laden (refreshen). Uiteindelijk worden ze dan altijd zichtbaar.

Als je vastzit in Excel, kan het zijn dat je nog in een cel vastzit. Druk eens op de 'esc' knop linksboven, vaak is het probleem dan opgelost.

link naar oefentoets van dhr. Jonker

Bijlage - Antwoorden praktische opdrachten

H4

H6

H7

H8

H9

H10

Bijlage: Grafieken

Er zijn verschillende grafieken die je moet kunnen maken. Hier volgt voor de 3 typen grafieken een uitleg.

Spreidingsdiagram

Het spreidingsdiagram heb je nodig als zowel op de x-as en de y-as kwantitafieve gegevens staan, gegevens waarvan je een gemiddelde zou kunnen berekenen. Deze grafiek heb je nodig voor de regressie en de correlatie. Bij de regressie moet je eerst goed nadenken wat er op de x-as moet en wat op de y-as, bij de correlatie maakt dit niet uit.

Staafdiagram met gemiddelde

Als je de gemiddelden van twee groepen moet laten zien, kun je dat tonen in een staafdiagram waarbij je het gemiddelde op de staafjes zet. De x-as is kwalitatief, het zijn groepen. De y-as is kwantitatief. Deze grafieken kun je gebruiken als je met t-testen bezig bent geweest. Op de staafjes is het eventueel ook mogelijk om foutbalken weer te geven met bijv. de standaardafwijking.

Histogram

Bij een histogram geef je aan hoe de gegevens verdeeld zijn. Op de x-as staan voor de variabele die je onderzoekt grenzen aangegeven waarbinnen geteld wordt hoe vaak gegevens voorkomen. Op de y-as wordt dan vervolgens getoond hoe vaak die gegevens voorkomen. Met name de x-as is interessant, soms wordt bij histogrammen de schaalverdeling op de y-as zelfs weggelaten, als de absolute aantallen niet zo relevant zijn.

Bijlage - Filmpjes

Filmpjes Excel

Histogram en draaitabel

Uitleg Hoofdstuk 6

Regressie in Excel

R-kwadraat met de hand

R-kwadraat detail

Correlatie in Excel

T-test gekoppeld

T-test gewoon

T-test verdieping 1

T-test verdieping 2

Chi-kwadraattest 1

Chi-kwadraattest 2

Foutbalken

Filmpjes R

Intro R

Starten Rcmdr

Groepen en plots in Rcmdr

Grafieken

Output opslaan

Statistieken in Rcmdr