Als een onderzoeker statistiek gebruikt is er vaak een onzekerheid in zijn conclusie. Dat komt omdat hij meestal een steekproef heeft genomen van een grotere populatie. Als je iets wilt onderzoeken over motivatie van leerlingen op school, is het erg veel werk om alle leerlingen te onderzoeken, maar zal ik eerder een paar klassen uitzoeken om dat te onderzoeken. Het voordeel is dat het werkbaar is, het nadeel is dat mijn steekproef niet per se hoeft te kloppen met de werkelijkheid. Er zijn dan verschillende uitkomsten mogelijk:
Werkelijkheid (populatie) | ||
Conclusie (o.b.v. steekproef) | Geen verschil | Wel verschil |
Geen verschil | Correct (waar-negatief) | Fout vd 2e soort (vals-negatief) |
Wel verschil |
Fout vd 1e soort (vals-positief) |
Correct (waar-positief) |
In de tabel hierboven zie je een tabel waarin de mogelijke uitkomsten van een onderzoek staan vermeld. Je ziet links de conclusie van de onderzoeker en aan de bovenkant hoe het in het echt zit. De conclusie kan afwijken van de werkelijkheid omdat de steekproef niet per sé een goede afspiegeling hoeft te zijn. Met kleinere aantallen is namelijk de invloed van een toevallig afwijkende waarde in de steekproef groter. Dus als de onderzoeker concludeert dat er geen verschil is tussen groepen en dat was ook echt zo, dan was de onderzoeker correct. Concludeert de onderzoeker dat er wel een verschil was (hij verwerpt de nul-hypothese) terwijl er helemaal geen verschil was maakt hij een fout. Deze fout noemen we de fout van de 1e soort of een type-1 fout. Als er in het echt geen verschil was en de onderzoeker concludeert dat er geen verschil was, dan had hij gelijk. Als hij echter concludeert dat er geen verschil was, terwijl dit in werkelijk wel zo was, maakt hij de fout van de 2e soort of type-2 fout.
Waarom is dit zo belangrijk?
De fout van de 1e orde wordt berekend met allerlei statistische methodes, die jullie in het volgende hoofdstuk gaan leren. Omdat het niet prettig is om te concluderen dat er een effect is, terwijl dat niet zo is, is er een grenswaarde voor de fout van de 1e orde waaronder je mag zeggen dat er een effect is. Deze grenswaarde noemen we alpha of α (griekse letter alpha). Meestal wordt deze op p=0,05 gesteld. Bij veel statistische methodes wordt deze kans berekend en als deze kans kleiner is dan 0,05 wordt vaak gezegd dat het verschil dat er is (of het effect dat uit de steekproeven komt) statistisch significant is.
Belangrijk om te weten is dat de kans op een waar-positief resultaat 1-alpha is. Deze kans geeft eigenlijk aan dat wat de kans is op het verkregen resultaat (of extremer) als de nulhypothese waar is. Dus als die kans heel klein is, dan is de nulhypothese onwaarschijnlijker dan een alternatieve hypothese.
Fout van de 2e soort
Deze fout vertelt je hoe goed je een echt verschil kunt vinden. De kans op het vinden van een verschil, als dat er is, is dus 1 min de fout v.d. 2e soort. Stel je fout van de 2e soort is 0,2, dan is die kans op het vinden van een verschil dus 0,8. Die kans noemen we ook wel de kracht van de test.
Relevantie
Het is belangrijk bij dit alles te blijven nadenken of je eventuele statistisch significante verschil ook relevant is. Stel dat je erachter komt dat Twente supporters siginificant meer patat eten dan Heracles supporters, en dat dit verschil 1 patatje (het stengeltje, niet het bakje) per jaar is, dan zegt dat natuurlijk helemaal niets.Om die reden moet je ook altijd bij antwoorden beschrijven hoe groot een effect of verschil is, als je statistiek aantoonde dat het verschil of effect statistisch significant was.
Fout vd 1e soort: je hebt door toeval een verschil gevonden in de steekproef dat er in het echt (de populatie) niet is. Je berekent de kans hierop.
Fout vd 2e soort: je hebt een verschil dat er in de populatie wel is, niet gevonden in de steekproef. Je berekent de kans hierop.