Bij het trainen van een neuraal netwerk geef je het heel veel voorbeelden met het goede antwoord erbij. Stel: je wilt dat het netwerk katten herkent. Je laat het duizenden foto’s zien waarop stond of er een kat op stond of niet. Het netwerk past steeds zijn “knoppen” (gewichten) aan om de fout tussen zijn voorspelling en het juiste label zo klein mogelijk te maken. Na genoeg herhalingen (epochs) kan hij nieuwe foto’s vaak goed herkennen.
Hoe het mis kan gaan
Bias in de data: Als je vooral foto’s van witte katten gebruikt, leert het netwerk dat álle katten wit zijn. Op zwarte katten zal het dan vaak falen. Zo is AI veelal getraind op witte gezichten, trek zelf maar je conclusie.
Overfitting: Het netwerk onthoudt de voorbeelden té goed en leert geen algemene regels. Het raakt in de war bij nieuwe, iets andere plaatjes. Mensen zijn uniek en mensen die er iets anders uitzien, wil je niet buitensluiten. Daar gaat AI dus de mist in.
Onderfitting: Het netwerk is te simpel of krijgt te weinig data, waardoor het de basispatronen nog niet doorheeft en vaak fouten maakt. Als er te weinig trainingsdata is of de data is te eenzijdig, dan neemt het verkeerde beslissingen. Wil je weten hoe dat werkt, kijk dan de video van Maarten Lamers van de universiteit van Leiden hieronder.
Verkeerde labels: Als een foto per ongeluk als “hond” is gemarkeerd terwijl er echt een kat op staat, leert het netwerk de verkeerde dingen. Het filmpje hieronder behandelt ook verkeerde labels.
Adversarial voorbeelden: Slimme mensen kunnen kleine, bijna onzichtbare aanpassingen maken aan een afbeelding, waardoor de AI zó misleid wordt dat hij een kat voor een auto aanziet. Zo is er dit voorbeeld van koekjes en honden.
Zie je de verschillen? En snap je hoe een computersysteem hier de fout kan ingaan?
Door goed op te letten welke data je gebruikt, de juiste omvang van je netwerk te kiezen en je model te testen op nieuwe voorbeelden, kun je deze valkuilen vermijden. Ook zul je zien dat AI elke dag beter wordt, want elke dag gaat er meer data in de systemen. Deze voorbeelden zullen dus over een poosje verleden tijd zijn.
Als je wilt voorkomen dat er bijvoorbeeld vooroordelen (bias) in jouw eindresultaten zitten, moet je dus of de uitkomsten echt heel goed controleren of op zoek gaan naar een model waar is getraind met meer eerlijke data. Dat is alleen niet altijd te zien.