Vergelijken met regressie-analyse

Student Klaas doet onderzoek op de woningmarkt naar welke factoren van invloed zijn op de prijs van woningen.
Van een aantal woningen zijn de volgende variabelen bekend: verkoopprijs, oppervlakte, aantal slaapkamers, aantal badkamers, bouwjaar en of de woning over een garage beschikt. Twee onderzoeksvragen die Klaas heeft geformuleerd, zijn:

  1. Hoe kun je de verkoopprijs van een woning voorspellen?
  2. Hoe hangt de verkoopprijs van een woning samen met andere variabelen?

 

Klaas heeft zijn gegevens in bijgaand bestand verzameld. Hier zie je het begin van de tabel:

Begin van de tabel met huizen-informatie
Gegevens over woningen

 

Huizen-verkoopprijzen.xlsx

Regressie wordt toegepast op numerieke gegevens. Regressie-analyse is een statistische berekening op basis van een formule. De ouderdom van de woning is om die reden weergegeven in het aantal jaren dat de woning bestaat, en de staat van onderhoud in een 0 of 1, afhankelijk van de conditie van de woning.

 

Enkelvoudig of meervoudig

We spreken van enkelvoudige lineaire regressie als de verkoopprijs lineair afhankelijk is van één variabele. Bijvoorbeeld als de verkoopprijs alleen afhankelijk is van de woonoppervlakte. We spreken van meervoudige regressie als de verkoopprijs afhankelijk is van twee of meer variabelen.

 

Variabelen in regressie

Variabelen in grafieken zijn gewoonlijk als volgt gebruikt:
- Langs de horizontale as staat de X, ofwel de onafhankelijke of verklarende variabele;
- Langs de verticale as staat de Y, ofwel de afhankelijke of respons variabele.

 

Lineaire regressie

Wanneer Y afhankelijk is van X, en de grafiek vertoont een rechte lijn, dan is er sprake van lineaire regressie. In het voorbeeld van de huizenprijs: stel je voor dat de prijs bepaald wordt door de oppervlakte van de woning, waarbij elke vierkante meter (m2) 1.000 euro waard is. Dan kun je dat als volgt opschrijven:
          verkoopprijs = 1.000 x oppervlakte
Vul je dan de oppervlakte in, dan kun je zo de verkoopprijs berekenen.

Zo'n lijn wordt 'beschreven' door de volgende formule:

Hierin staat voor de verkoopprijs, is een vast bedrag, is de prijs per vierkante meter, en staat voor de oppervlakte in vierkante meters.

 

Multiple regressie

Om het voorbeeld wat realistischer te maken, kun je je voorstellen dat er meer factoren zijn, die van invloed zijn op de verkoopprijs van een woning. Niet alleen de oppervlakte, maar ook het aantal slaapkamers, het aantal badkamers, de oppervlakte van het perceel en de staat van onderhoud. Deze gegevens en meer zijn in het bestand hierboven opgenomen.
Het algemene regressiemodel, wat voor meer variabelen kan worden uitgebreid is het volgende:
etc

Stel, de verkoopprijs van een huis wordt bepaald door een vast bedrag van 80.000 euro, en daarnaast 100 euro per vierkante meter van de woningoppervlakte, en 20.000 per slaapkamer. Daarmee ziet het regressiemodel er uit als volgt:

Hiermee kun je door verschillende waarden in te vullen, de verkoopprijs van een woning berekenen, bijvoorbeeld voor een woning van 300 m2 en 4 slaapkamers:
euro