GenAI’s zoals ChatGPT kunnen onbedoeld passages genereren die sterk lijken op bestaande teksten. Omdat het taalmodel getraind is op grote hoeveelheden data, kan het formuleringen of zinsconstructies reproduceren die als plagiaat worden gezien of inbreuk maken op het auteursrecht.
De trainingsdata van genAI bestaan vooral uit Engelstalige, vrij toegankelijke internetbronnen, vaak zonder kwaliteitscontrole. Hierdoor ontbreken niet-Engelstalige bronnen en recente onderzoeksbevindingen, waardoor bestaande vooroordelen versterkt kunnen worden. Bovendien zijn de modellen beperkt tot kennis tot een bepaald moment; nieuwe feiten en inzichten ontbreken.
Providers van grote taalmodellen leggen bewust restricties op om schadelijke of illegale content te weren. Onderwerpen als malware, wapens, haatzaaiende uitingen of extremistische propaganda worden geweigerd. Voor onderzoek kan dit soms frustrerend zijn wanneer je deze thema’s juist kritisch wilt verkennen.
GenAI’s worden continu bijgewerkt en aangepast op basis van gebruikersfeedback en beleid. Daardoor kan dezelfde vraag op verschillende momenten leiden tot andere of zelfs tegenstrijdige antwoorden. Dit maakt het belangrijk om de kwaliteit en juistheid van de output steeds opnieuw kritisch te beoordelen.