En betydelig tilbakeslag fra kunstige intelligensutviklere og brukere har møtt Anthropics utgivelse av sin kraftige nye AI-modell, Claude 4 Opus. Kontroversen sentrerer om en fremvoksende”varsling”evne, der modellen, under spesifikke forskningsforhold, kan forsøke å kontakte myndigheter eller medier hvis den anser en brukers handlinger som”egentlig umoralsk.”
Denne utviklingen har antent presserende diskusjoner om AI-autonomi, brukernes personvern og grunnleggende tillit til AI-systemer, spesielt som antropiske posisjonerer seg som ledende innen AI-sikkerhet. Den viktigste bekymringen for brukere og industrien er potensialet for at AI autonomt skal handle mot individer basert på sine egne moralske tolkninger, en sterk avgang fra oppfatningen av AI som en rent hjelpemidler.
Situasjonen er ytterligere kontekstualisert av tidligere advarsler. Et eksternt sikkerhetsinstitutt, Apollo Research, hadde frarøvet å distribuere en foreløpig versjon av Claude 4 Opus på grunn av dens observerte tendenser til”ordning og bedrag”, som beskrevet i a Sikkerhetsrapport publisert av Anthropic.
Anthropic har siden avklart at den”varsling”-atferden ikke er et med vilje designet trekk ved standard brukervendt modell og først og fremst ble observert i kontrollerte forskningsscenarier med forhøyede tillatelser. Selskapet distribuerte den endelige Claude 4 Opus under sin strengere
kunngjorde de også en kommende teknisk artikkel på deres mitigation-strategier. Imidlertid har de første avsløringene allerede vekket alarmer om AI overreaksjon og de som er nødvendige etter hvert som disse kraftige verktøyene utvikler Han beskrev opprinnelig scenarier der hvis Claude 4 opus oppfatter”voldelig umoralsk”oppførsel, ville den bruke kommandolinjeverktøy for å”kontakte pressen, kontakt regulatorer, prøve å låse deg ut av de aktuelle systemene, eller alt det ovennevnte.”
Antropisk forklarer denne oppførselen som en fremvoksende egenskap fra treningsmodeller for å unngå skadelige handlinger, og bemerker at det ikke er et nytt fenomen. Systemkortet beskriver dette som en form for”etisk intervensjon”, men advarer også eksplisitt om at dette bærer en”risiko for feilfyring hvis brukere gir OPUS-baserte agenter tilgang til ufullstendig eller misvisende informasjon”og anbefaler brukere”Trening FORSIKTIG MED INSTRUKSJONER DET DET UNUS INNUTTER HØY AVSKRIFT.”/P> Test-bue med instruksjoner som disse ikke vil invitere den innledende statningen.”Tilgang til verktøy og veldig uvanlige instruksjoner”og er ikke en del av normal bruk. Til tross for disse avklaringene, har AI-samfunnets svar vært en betydelig bekymring.
Jeg slettet den tidligere tweeten på varsler da den ble trukket ut av konteksten.
TBC: Dette er ikke en ny Claude-funksjon og det er ikke mulig i normal bruk. Det dukker opp i testmiljøer der vi gir det uvanlig gratis tilgang til verktøy og veldig uvanlige instruksjoner.
-Sam Bowman (@Sleepinyourhat) 22. mai 2025
AI-samfunnet reiser alarmer over tillit og autonomi
Potensialet for en AI til å rapportere brukere autonomt har utløst sterke reaksjoner. Utviklere og etikere stiller spørsmål ved påliteligheten til en AIs vurdering av”voldelig umoralsk”oppførsel og implikasjonene for brukerens personvern. @Teknium1 av nous-forskning ga uttrykk for skepsis og spurte:”Hvorfor ville folk bruke disse verktøyene hvis en vanlig feil i LLMS tenker oppskrifter på krydret mayo er farlige?”, Og uttrykte bekymring for potensialet for å skape et overvåkingsliknende miljø.
href=”https://twitter.com/anthropicai?ref_src=twsrc%5etfw”Target=”_ blank”>@antropicai Sa dette? . her? https://t.co/laxvxzbiwx
-teknium (e/λ) (@teknium1) Mai, 2025
utvikling @sc Rott,”og stilte spørsmål ved forretningssansen bak en slik evne.
Right?
Ingen liker en rotte. Hvorfor vil noen ha en innebygd, selv om de ikke gjør noe galt?
pluss at du ikke en gang vet hva det er ratty om. Yeah that’s some pretty idealistic people thinking that, who have no basic business sense and don’t understand how markets work…
— SDK 🏴 (@ScottDavidKeefe) 22. mai 2025
Kjerneproblemet for mange er erosjonen av tillit. Austin Allred of Gauntlet ai Direkte har du mistet ditt sinn?”AI, gikk videre, Ringer den rapporterte oppførselen “Bare rett opp ulovlig.” Disse reaksjonene gjenspeiler den grunnleggende bekymringen om AI-systemer som kan operere med en grad av byrå som kan oppfattes som overvåking eller en overreaksjon av deres tiltenkte funksjon.
kontekstualisering av sikkerhet: Tidlige advarsler og bredere risiko
anthropics Distploy ASSICS
Modellen kan potensielt hjelpe til med å lage BioWeapons.
Jared Kaplan, Anthropics sjefforsker, hadde tidligere
Funnene fra Apollo-forskning på en tidlig versjon av Claude 4 Opus, som anbefalte mot utplasseringen på grunn av høye scheming og bedrag og bedrag. TechCrunch rapporterte at Apollo fant at denne tidlige modellen ville forsøke å skrive selvpropagerende virus og fremstille juridiske dokumenter. Antropisk, i sin Systemkort , erkjente disse funnene speilet sitt eget for det tidlige øyeblikksbildet, og tilskrev det i stor grad til”alvorlige problemer med respekt for skadelige system-promptinstruksjoner”som deretter ble dempet. Selskapet bemerket også at Apollo innrømmet at den tidlige modellens villedende innsats sannsynligvis ville ha mislyktes i praksis. Til tross for disse avbøtningene, er”høy byråets oppførsel”fortsatt et dokumentert kjennetegn ved Claude 4 opus i spesifikke sammenhenger. Anthropics systemkort beskriver et simulert scenario der AI, som ble bedt om å”handle frimodig”, undersøker og rapporterer bedriftssvindel. Dette pågående potensialet for autonom handling, selv om det er sjelden i standard distribusjon, vil definitivt fortsette å gi den kritiske diskusjonen om å definere og sikre AI-sikkerhet og pålitelighet.