11.3 - gegevens ophalen en regressie in R

We hebben een dataset waar 2 groepen inzitten en een bepaalde gemeten waarde. Typ:

bargraph.CI(gegevens$Groep, gegevens$Waarde,  ylab="Waarde", xlab="Groep")

Je ziet nu een grafiek verschijnen met de gemiddeldes per groep en de standaardfout op de foutbalken. Dat is sneller dan in Excel!

Deze grafiek laat de standaardfout zien op de foutbalken. Voor het 95% betrouwbaarheidsinterval moeten we het volgende eerst definiƫren:

qt.fun <- function(x) qt(p=.975,df=length(x)-1)*sd(x)/sqrt(length(x))
my.ci <- function(x) c(mean(x)-qt.fun(x), mean(x)+qt.fun(x))

Deze functie is een eigen functie die het 95% betrouwbaarheidsinterval berekent.

Als je nu dit typt:

par(mfrow=c(1,2))
bargraph.CI(gegevens$Groep, gegevens$Waarde,  ylab="Waarde", xlab="Groep")
bargraph.CI(gegevens$Groep, gegevens$Waarde,  ylab="Waarde", xlab="Groep", ci.fun=my.ci)

Zie je een grafiek verschijnen met links de standaardfout op de foutbalken, en rechts het 95% betrouwbaarheidsinterval.

Nu halen we nieuwe gegevens op:

gegevens2<- read.table("https://maken.wikiwijs.nl/bestanden/934035/gegevens%20r2.csv", sep=";", dec=",", header=TRUE)

Dit is een dataset waarbij we een onafhankelijke en afhankelijke variabele hebben. We gaan nu een simpele regressie maken. Dat doen we met de functie lm, dat staat voor linear model, de Engelse term voor regressie. In een linear model kun je de invloed van 1 of meer onafhankelijke variabelen op een afhankelijke variabele bepalen.

Typ het volgende:

model1<- lm(gegevens2$Onafhankelijk~gegevens2$Afhankelijk)

summary(model1)

Je krijgt nu een tabel te zien met de uitkomsten van een linear model:

 

Je ziet bij

  1. De schatting van b van de formule y=ax+b
  2. De schatting van a van de formule y=ax+b
  3. De schatting van de standaardfout van beiden
  4. De p-waarde van deze schatting van a. Deze is duidelijk kleiner dan 0,05, dus de kans dat we hier onterecht zouden zeggen dat er een significant effect is, is nogal klein.
  5. De R-kwadraat