7.3 - Multipele regressie, ANOVA en F-test (VWO/verdieping)

Deze paragraaf is alleen voor VWO!

Bij de regressie gebruik je 1 onafhankelijke variabele om daarvan de invloed op de afhankelijke variabele te schetsen volgens:

waarbij y je afhankelijke variabele is, x je onafhankelijke variabele, a de invloed van x op y, en b het basisniveau van y bij x=0. De laatste term is de foutterm, staat voor error (griekse letter e, epsilon). Dat komt omdat je met die regressie nooit alle variatie in y kunt verklaren.

Maar er zijn niet veel situaties waarbij je maar 1 onafhankelijke variabele hebt. Ook heb je vaak groepsvariabelen als onafhankelijke variabele, bijvoorbeeld klas (waarvan je dan verschillende types hebt. Als je die situaties hebt kun je niet meer met Excel uit de voeten en zul je andere software moeten gebruiken. We komen later op deze software terug.

Hoe ziet het er dan uit qua formule?

Stel er zijn twee onafhankelijke variabelen:

Nu is a nog steeds de invloed van op y, en is b de invloed van op y en is c het startniveau van y (ook wel intercept genoemd) en weer de foutterm .

Met drie variabelen:

etc.

Het kan nu  best zijn dat variabele een continue variabele is (iets wat je kunt meten) en dat een nominale variable is (een variabele die verschillende groepen bevat).

Maar hoe weet je nou hoeveel variabelen je in zo'n model moet stoppen?

Daarvoor geldt eigenlijk het volgende: je probeert je variatie in y met zo min mogelijk variabele te beschrijven. Dus als een model met 3 variabelen eigenlijk niets beter uitlegt dan met 2 variabelen, kunt je beter het simpelere model gebruiken. Deze regel noemen ze ook wel Occam's scheermes.

Hoe test je dat dan? Dat kun je weer met de F-test doen, daarmee test je modellen die de data beschrijven ten opzichte van elkaar. Verschilt de uitleg van een complexer model niet significant van een simpeler model, maakt het dus niets uit en gebruik je het simpelere model en concludeer je dat die ene variabele die je net hebt weggelaten geen significante invloed heeft.

We komen uitgebreid op deze methodes terug in het hoofdstuk over programmeren met statistiek en R.