Intermezzo - Grafieken en datavisualisatie

Statistische analyses zijn 1 ding, maar het is vaak ook belangrijk om je gegevens visueel in grafieken te laten zien.

Hier komt informatie die je daarbij gaat helpen en ook een opdracht die je ermee laat oefenen. Komt z.s.m.

Principes van goede visualisatie van gegevens

Bij de volgende punten worden hierna voorbeelden getoond.

  1. Als je een grafiek maakt, denk dan na over je publiek. Als je de grafiek maakt voor jezelf om een idee te krijgen van je gegevens, gebruik je andere grafieken dan als je een presentatie voor publiek gaat maken.
  2. Laat zoveel mogelijk de ruwe gegeven zien. Een gemiddelde vertelt alleen het gemiddelde, een histogram laat al meer zien van de 'echte' gegevens, en een spreidingsdiagram laat alles zien.
  3. Gebruik nooit cirkeldiagrammen. Ze zijn lastig af te lezen, je kunt geen spreiding aangeven en  je kunt moeilijk cirkeldiagrammen vergelijken.
  4. Zorg dat je staafdiagrammen op de y-as bij 0 laat beginnen.
  5. Verander nooit de hoeveelheden die getoond worden. Stel je wilt het inkomen laten zien en je gebruikt i.p.v. een staafdiagram de grootte van een muntje. Als je de straal van het muntje twee keer zo groot maakt, neemt de oppervlakte van dat muntje met pi*r2 toe. Daardoor lijkt de toename groter dan hij eigenlijk is. Hiermee fop je je publiek.
  6. sorteer je grafieken op een logische manier. Als je bijv. de gemiddelde cijfers in veel verschillende klassen wilt tonen, sorteer dan van het laagste gemiddelde naar het hoogste gemiddelde (of andersom). Op die manier is direct te zien waar het cijfer het hoogste of laagste is. Sorteren op klassennummers is doelloos.
  7. Bij het vergelijken van grafieken: gebruik dezelfde assenverdelingen en zet histogrammen boven elkaar en staafdiagrammen naast elkaar.
  8. Dingen die je met elkaar wilt vergelijken moet je naast elkaar zetten.
  9. Kleur gebruiken kan fijn zijn, maar denk aan kleurenblinde mensen. Teveel kleur maakt een grafiek te wild.

Een goede manier om je gegevens eerst eens te bekijken is met een boxplot. Een boxplot is een grafiek waarmee je snel de spreiding in je gegevens kunt tonen.

Boxplot

Je ziet een vierkant, met daaronder twee foutbalken en buiten die foutbalken puntjes.

We beginnen onderaan. Onder de onderste foutbalk (rode lijn) bevindt zich 2,5% van je gegevens. De onderkant van het vierkant (blauwe lijn) geeft het 25e percentiel. Hieronder zit 25% van je gegevens. Onder de dikke streep in het vierkant (beige lijn) zit 50% van je gegevens (de mediaan dus, maar soms laat men hier het gemiddelde zien). Aan de bovenkant van het vierkant (groene lijn) zit het 75e percentiel, hieronder zit dus 75% van je gegevens.Onder de bovenste foutbalk (gele lijn) zit 97,5% van je gegevens. Dat betekent dat we boven die lijn nog 2,5% over hebben, net als onder de onderste foutbalk.
Bij Wiskunde A wordt jullie iets anders geleerd. 1) Jullie maken de boxplot op zijn zij. Dat is raar, want op een y-as zet je dat wat je gemeten hebt. Dan is het raar om dat bij een boxplot anders te doen. 2) Jullie leren dat de foutbalken aangeven wat het laagste punt is en wat het hoogste punt is. Er zijn verschillende manieren van het maken van een boxplot en wat de lijntjes aangeven.Het is dus belangrijk bij de grafiek goed te beschrijven wat er wordt getoond.

gegevens boxplot