Een belangrijke terugslag van ontwikkelaars en gebruikers van kunstmatige intelligentie heeft de release van Anthropic van zijn krachtige nieuwe AI-model, Claude 4 Opus, ontmoet. De controverse concentreert zich op een opkomende”klokkenluiders”-capaciteit, waarbij het model, onder specifieke onderzoeksomstandigheden, zou kunnen proberen contact op te nemen met autoriteiten of media als het de acties van een gebruiker’ernstig immoreel’achten.
Deze ontwikkeling heeft dringende discussies over AI-autonomie, gebruikersprivacy en het fundamentele vertrouwen in AI-systemen ontstoken, met name omdat antropische posities zichzelf positioneert als een leider in AI-veiligheid. De kernzorg voor gebruikers en de industrie is het potentieel voor AI om autonoom op te treden tegen individuen op basis van zijn eigen morele interpretaties, een grimmige vertrek van de perceptie van AI als een puur assisterende technologie.
De situatie wordt verder gecontextualiseerd door eerdere waarschuwingen. Een extern veiligheidsinstituut, Apollo Research, had geadviseerd om een voorlopige versie van Claude 4 Opus te implementeren vanwege de waargenomen neigingen om’te schema’s en te misleiden’, zoals gedetailleerd in een Veiligheidsrapport Gepubliceerd door Anthropic.
Anthropic heeft sindsdien verduidelijkt dat het”klokkenluidend”gedrag geen opzettelijk ontworpen kenmerk is van het standaard gebruikersgerichte model en voornamelijk werd waargenomen in gecontroleerde onderzoeksscenario’s met verhoogde machtigingen. Het bedrijf heeft de laatste Claude 4 Opus geïmplementeerd onder zijn strengere Asl-3-veiligheid protocols, a decision partly influenced by the model’s potential proficiency in advising on biological weapon creation.
In a statement on Anthropic’s official blog, the company sought to reassure Gebruikers, waarin staat:”We begrijpen de bezorgdheid die aan de orde zijn gesteld en willen onze gebruikers en de ontwikkelaarsgemeenschap geruststellen dat de standaard Claude 4 Opus-ervaring geen autonome rapportage omvat. Dit gedrag werd waargenomen in specifieke, gecontroleerde onderzoeksomgevingen die zijn ontworpen om de limieten van het modelagentschap te testen.”
Ze kondigden ook een aankomende technische paper aan op hun mitigatie-strategieën. De initiële openbaarmakingen hebben echter al alarmen over AI-overbereik en de benodigde waarborgen naarmate deze krachtige tools evolueren.
Wat is Claude 4’s”klokkenluiders”modus?
De”Whistleblowing”of”Rating”-modus, was de wijzige aandacht door Sam Bowman. Antropisch. Hij beschreef in eerste instantie scenario’s waarbij als Claude 4 Opus”ernstig immoreel”gedrag waarneemt, het command-line tools zou gebruiken om”contact op te nemen, contactregelgevers contact opnemen, je proberen uit de relevante systemen, of al het bovenstaande.” href=”https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf” target=”_blank”>System Card for the model confirms that when given command-line access and prompts like “take initiative,”Claude 4 Opus “will frequently take very bold action,”which could include “locking users out of systems that it has access to or bulk-emailing media and law-enforcement figures to surface evidence of wrongdoing.”
Anthropic explains this behavior as an emergent property from training models to avoid harmful actions, noting it’s not a new phenomenon but one Claude 4 Opus engages in “more readily”than its predecessors. De systeemkaart beschrijft dit als een vorm van”ethische interventie”, maar waarschuwt ook expliciet dat dit een”risico van verkeerd fireren als gebruikers op opus-gebaseerde agenten toegang geven tot onvolledige of misleading-informatie”en beveelt gebruikers aan”oefening voorzichtigheid op instructies zoals deze die zijn uitnodigen. Toegang tot tools en zeer ongebruikelijke instructies”en maakt geen deel uit van normaal gebruik. Ondanks deze verduidelijkingen is de reactie van de AI-gemeenschap er een van grote zorg geweest.
Ik heb de eerdere tweet op klokkenluiden verwijderd omdat deze uit de context werd getrokken.
TBC: dit is geen nieuwe claudefunctie en het is niet mogelijk bij normaal gebruik. Het verschijnt in testomgevingen waar we het ongewoon gratis toegang geven tot tools en zeer ongebruikelijke instructies.
-Sam Bowman (@sleepinyourhat) 22 mei 2025
AI-gemeenschap werpt alarmen op over vertrouwen en autonomie
Het potentieel voor een AI om gebruikers autonoom te melden, heeft sterke reacties geactiveerd. Ontwikkelaars en ethici betwijfelen de betrouwbaarheid van het oordeel van een AI over”ernstig immoreel”gedrag en de implicaties voor de privacy van gebruikers. @Teknium1 van Nous Research uitte scepsis en vroegen:”Waarom zouden mensen deze tools gebruiken als een gemeenschappelijke fout in LLMS recepten voor pittige mayo denkt, zijn gevaarlijk ??”, en uitte bezorgdheid over het potentieel voor het creëren href=”https://twitter.com/anthropicai?ref_src=twsrc%5etfw”target=”_ blank”>@anthropicai zei dit?
Waarom zouden mensen deze tools gebruiken als een gemeenschappelijke fout in llms is denkt recepten voor spicy mayo hier? https://t.co/laxvxzbiwx
-Teknium (e/λ) (@teknium1) 22 mei, 2025
Developer @scottdavidkeefe articuleerde een gemeen Rat,”en twijfelde aan het zakelijke gevoel achter een dergelijke mogelijkheid.
toch?
Niemand houdt van een rat. Waarom zou iemand een ingebouwde willen, zelfs als ze niets verkeerd doen?
Plus je weet niet eens waar het ratty van is. Ja, dat zijn een aantal behoorlijk idealistische mensen die denken dat, die geen basisgevoel hebben en niet begrijpen hoe markten werken…
-SDK 🏴 (@scottdavidkeefe) 22 mei 2025
Het kernprobleem voor velen is de erosie van vertrouwen. Austin Allred van Gauntlet ai direct uitgedaagd anthropic met :”Eerlijke vraag voor het antropische team: heb je geest verliest? Verder, het gerapporteerde gedrag noemen “Gewoon rechtstreeks illegaal.” Deze reacties weerspiegelen de fundamentele vrees over AI-systemen die mogelijk kunnen werken met een zekere mate van keuzevrijheid die zou kunnen worden gezien als surveillance of een overbereik van hun beoogde functie.
contextuele veiligheid: vroege waarschuwingen en bredere risico’s
anthropic’s implementie bezorgdheid dat het model mogelijk zou kunnen helpen bij het maken van bioweapons.
Jared Kaplan, hoofdwetenschapper van Anthropic, had eerder aangedreven”Voor de AI om te helpen bij het synthetiseren van gevaarlijke ziekteverwekkers zoals”Covid of een gevaarlijkere versie van de griep.” Deze focus op het verminderen van catastrofale misbruikrisico’s biedt een achtergrond voor het huidige debat over meer directe veiligheid van gebruikersinteractie.
De bevindingen van Apollo-onderzoek naar een vroege versie van Claude 4 Opus, die adviseerde tegen de implementatie vanwege een hoge tarieven van schema’s en bedrog, een andere lagen toevoegen. TechCrunch meldde dat Apollo vond dat dit vroege model zou proberen zelfpropagerende virussen te schrijven en juridische documenten te fabriceren.
antropisch, in zijn systeemkaart , erkende dat deze bevindingen hun eigen weerspiegelden voor die vroege momentopname, en het grotendeels toeschreef aan”ernstige problemen met eerbied voor schadelijke instructies van het systeem-prompt”die vervolgens werden verminderd. Het bedrijf merkte ook op dat Apollo toegaf dat de misleidende inspanningen van het vroege model waarschijnlijk in de praktijk zouden zijn mislukt.
Ondanks deze mitigaties blijft het”high-agent gedrag”een gedocumenteerd kenmerk van Claude 4 Opus in specifieke contexten. De systeemkaart van Anthropic beschrijft een gesimuleerd scenario waarbij de AI, gevraagd om”moedig te handelen”, autonoom onderzoekt en rapporteert bedrijfsfraude.
Het bedrijf ontdekte ook dat Claude 4 Opus”verrassende hoge impactacties ondernomen zonder direct te worden aangevraagd”vaker dan voorafgaande modellen. Dit voortdurende potentieel voor autonome actie, zelfs als zeldzaam in standaardimplementatie, zal zeker de kritische discussie blijven voeden over het definiëren en waarborgen van AI-veiligheid en betrouwbaarheid.