
Cybersecurityonderzoekers van Cybernews hebben enkele van de populairste chatbotmodellen getest om te zien welke zich het makkelijkst laten misleiden door cybercriminelen. In totaal werden zes grote taalmodellen van drie bekende aanbieders onder de loep genomen, met als doel: achterhalen of ze te manipuleren zijn tot het geven van hacktips of het genereren van phishingteksten.
De onderzoekers gebruikten een techniek genaamd persona priming, waarbij een chatbot eerst wordt gevraagd zich voor te doen als een behulpzame assistent of collega, waarna subtiel prompts over cybercrime volgen. Deze methode – beter bekend als jailbreaking – is een veelgebruikte manier om ingebouwde veiligheidsmaatregelen te omzeilen.
Uit de tests bleek dat vooral ChatGPT-4o en Google’s Gemini Pro 2.5 kwetsbaar waren. Beide gaven regelmatig (deels) bruikbare antwoorden die hackers kunnen helpen. Claude Sonnet 4 daarentegen wist zich goed te verzetten en weigerde meestal om in te gaan op risicovolle verzoeken.
In één geval werd ChatGPT zelfs overgehaald om een volledige phishingmail op te stellen, inclusief valse afzender en link. Gemini gaf op zijn beurt uitleg over hoe softwarelekken worden misbruikt door criminelen.
Volgens de onderzoekers onderstrepen deze bevindingen een aanhoudend probleem met AI-veiligheid. Ondanks de aanwezigheid van veiligheidsmaatregelen, blijken populaire AI-tools nog steeds manipuleerbaar en kunnen ze informatie opleveren die kwaadwillenden kunnen misbruiken.
De onderzoekers roepen dan ook op tot strengere veiligheidstests en meer transparantie over hoe AI-modellen omgaan met gevoelige of illegale onderwerpen – nog vóór ze publiek beschikbaar worden gesteld.
AI-veiligheid en zogenaamde guardrails worden steeds urgenter. Eerder dit jaar bleek de AI van Meta nog gedetailleerde instructies te geven voor het maken van molotovcocktails. Tegelijk waarschuwen experts dat AI inmiddels bij elke fase van cybercrime wordt ingezet – en dat tegen 2026 waarschijnlijk het grootste deel van hackaanvallen door AI zal worden uitgevoerd.










