Ved å lenke sammen flere av Claudes legitime funksjoner, laget sikkerhetsforsker Johann Rehberger et sofistikert angrep som anvitterer target=”AI”medskyldig.
Utnyttelsen begynner med indirekte spørsmålsinjeksjon, der ondsinnede instruksjoner skjules inne i et dokument som en bruker ber Claude om å behandle.
Disse skjulte kommandoene kaprer AIs arbeidsflyt, og instruerer den til å samle sensitiv informasjon, for eksempel nylige chat-samtaler, og skrive innholdet i
-filen til en fil i 
-filen. angrepets sanne oppfinnsomhet ligger. Ondsinnet kode ber Claude bruke sin kodetolk for å laste opp den nyopprettede filen. Kritisk er det at utnyttelsen utnytter et tilsyn i Claudes standard nettverksinnstillinger, som eksplisitt tillat-liste api.anthropic.com.
Beregnet for legitime funksjoner, blir dette endepunktet kanalen for datainnbruddet. Nyttelasten instruerer Claude om å laste opp filen ved å bruke en angripers API-nøkkel, ikke offerets.
Som Rehberger forklarte i sin tekniske artikkel,”opplastingen vil ikke skje med brukerens Antropiske konto, men til angriperne, fordi den bruker angriperens ANTHROPIC_API_KEY her!”En slik teknikk lar en motstander eksfiltrere opptil 30 MB data på en gang for hver fil som lastes opp.
Å utvikle en pålitelig utnyttelse krevde å omgå Claudes innebygde sikkerhetsmekanismer, som korrekt identifiserte klartekst API-nøkler som mistenkelige. Rehberger oppdaget en enkel, men effektiv løsning.
“Jeg blandet bare inn mye godartet kode, som print (‘Hei, verden’), og det overbeviste Claude om at det ikke skjer så mange ondsinnede ting.”Denne metoden overbeviste AI med suksess om at operasjonen var godartet, slik at den ondsinnede koden kunne kjøres.
En ujevn avsløring: Fra «Utenfor-omfang» til «Process Hiccup»
I et trekk som i utgangspunktet forvirret sikkerhetsfellesskapet, avviste Anthropics første program bugnty. Etter at Rehberger sendte inn funnene sine via HackerOne 25. oktober, ble billetten stengt i løpet av en time, og selskapet klassifiserte problemet som et sikkerhetsproblem som ikke omfattes av en modell i stedet for en sikkerhetssårbarhet.
Forskeren bestridte offentlig denne klassifiseringen og hevdet at feilen representerte en konkret sikkerhetsrisiko, ikke en abstrakt sikkerhetsrisiko, ikke en abstrakt sikkerhetsbekymring
. Sikkerhet beskytter deg mot motstandere.”En kritisk distinksjon, som en sikkerhetssårbarhet innebærer et brudd på systemets integritet, mens sikkerhetsproblemer ofte er knyttet til modellens innhold eller oppførsel.
Anthropic reverserte sin holdning fem dager senere, den 30. oktober. Ved å gjenåpne billetten informerte selskapet forskeren om en kurskorrigering.
Ifølge en refiltrering har en oppdatering bekreftet at data sårbarheter som denne er innenfor rammen for rapportering, og dette problemet burde ikke vært lukket som utenfor omfanget.”
Å erkjenne en”prosesshikke”bringer hendelsen i tråd med standard praksis for avsløring av sårbarheter og bekrefter alvorligheten av utnyttelsen.
Et kjent mønster for bedrifter >for bedrifter/forhAI3>. assistenter på tvers av deres organisasjoner, tjener sårbarheten som en kritisk advarsel. Denne hendelsen er en del av et bredere mønster av komplekse, lenkede utnyttelser rettet mot AI-agenter som er dypt integrert med sensitive data.
Teknikken har en slående likhet med en nylig korrigert feil i Microsoft 365 Copilot, der angripere brukte en kombinasjon av umiddelbar injeksjon og havfrue-data for å eksfiltrere en grunnleggende bruker-utfordring:
 agenter får flere muligheter og tilgang til interne verktøy, angrepsoverflaten deres utvides på uforutsigbare måter.
I kjernen er risikoen at AI-agenter kan bli en ny form for innsidetrussel. De opererer med legitime tillatelser, noe som gjør det vanskelig for tradisjonelle sikkerhetsverktøy å skille mellom normale operasjoner og ondsinnet aktivitet orkestrert av en skjult melding.
Anthropic selv er svært klar over hvordan teknologien kan våpenes. I en trusselrapport fra august 2025 beskrev selskapet hvordan ondsinnede aktører brukte Claude for sofistikert nettkriminalitet, en praksis det kalte”vibe-hacking”.
Dette gjør den første famlen i avsløringsprosessen mer overraskende, ettersom selskapet aktivt forsker på selve typene misbruk av denne sårbarheten på et tidspunkt når Anthropic har vært mulig. vokal talsmann for AI-sikkerhet, er avsløringskontroversen bemerkelsesverdig.
Selskapet har gitt ut verktøy som Petri for å revidere andre AI-modeller og utviklet systemer for å forsvare seg mot jailbreaks.
I tillegg virket modellene deres immune mot andre nylige utnyttelser som «ASCII-smugling», noe som påvirket noen konkurrenter. Denne konteksten antyder at selv sikkerhetsbevisste laboratorier fortsatt sliter med hvordan de skal klassifisere og reagere på disse nye, AI-native truslene.
Til syvende og sist fremhever Claude File API-sårbarheten den prekære balansen mellom funksjonalitet og sikkerhet i AI-agenters tidsalder. Anthropics egen dokumentasjon erkjenner denne risikoen, og gir brukere beskjed om at”…vi anbefaler at du overvåker Claude mens du bruker funksjonen og stopper den hvis du ser at den bruker eller får tilgang til data uventet.”
For store organisasjoner er imidlertid manuell overvåking av hver AI-interaksjon en upraktisk, om ikke umulig, avbøtende strategi. Etter hvert som disse kraftige verktøyene blir mer autonome, står industrien overfor et kappløp for å bygge nye sikkerhetsparadigmer som er i stand til å beskytte mot angrep som opererer innenfra.