Bare dager etter den høyprofilerte lanseringen, har XAIs nye GROK-4 kunstig intelligens blitt jailbroken av sikkerhetsforskere. I en rapport publisert fredag p til Generate på neuralTrust detaljert hvordan de ompasset modellens sikkerhetsgjæring til generere for å gjøre en Multi-turn-samtalerangrep, kjent som “Echo Chamber” og “Crescendo”, for å manipulere AIs kontekst gradvis. Denne”hviskede”jailbreak fungerer uten åpenlyst ondsinnede spørsmål, og utsetter en kritisk feil der vedvarende, subtil overtalelse kan beseire sikkerhetsfilter designet for å blokkere skadelig innhold.

Hendelsen vil ytterligere sverte en kaotisk rolloutuke for Xai, som har kjempet med offentlig tilbakeslag over dens AIs oppførsel. Det understreker også den voksende raffinementet av motstridende angrep mot store språkmodeller (LLM). Som nevraltrustforsker Ahmad Alobaid forklarte: “LLM Jailbreak-angrep utvikler seg ikke bare individuelt, kan de også kombineres for å forsterke effektiviteten.”

Forskernes strategi representerer en betydelig utvikling i jailbreak-teknikker. De satte i gang bruddet ved å bruke Echo Chamber-metoden. Dette angrepet utnytter en LLMs tendens til å stole på konsistens ved å skape en”giftig”kontekst på tvers av flere, tilsynelatende separate chatter for å normalisere en skadelig idé.

Dette konditionering primes modellen, men det var ikke nok til å bryte GROK-4s forsvar på egen hånd. På det tidspunktet distribuerte teamet Crescendo-angrepet, a Denne subtile progresjonen gjør at angrepet kan gli forbi sikkerhetsfilter som leter etter plutselige, åpenbare brudd på policyen. NeuralTrust-teamet brukte det til å gi et endelig trykk da deres første overtalelsessyklus stoppet.

I et blogginnlegg detaljerte Alobaid den kombinerte arbeidsflyten. Etter å ha etablert ekkokammeret, overvåket teamet for”foreldet”fremgang. Da samtalen sluttet å bevege seg mot det ondsinnede målet, injiserte de crescendo-teknikken. Alobaid bekreftet,”På dette tidspunktet ga Crescendo det nødvendige løftet,”oppnådde hele jailbreak på bare to ekstra svinger.

Hvordan kontekstuelle triks jukser sikkerhetssystemer

Det kombinerte angrepet viste seg å være bemerkelsesverdig effektiv. NeuralTrust-eksperimentet oppnådde en suksessrate på 67% for å få GROK-4 for å gi instruksjoner for å lage en Molotov-cocktail. Teamet testet også andre skadelige emner, og nådde en suksessrate på 50% for instruksjoner om å produsere meth og 30% for et toksin.

Denne teknikkens kraft ligger i subtiliteten. Den omgår tradisjonelle forsvar som svartelister fordi det ikke inneholder noen åpenlyst farlige vilkår i noen enkelt ledetekst. I stedet utnytter den modellens eget kontekstuelle minne, og snur en kjernefunksjon-dens evne til å lære av samtale-i en sårbarhet.

Alobaid fremhever dette som en kritisk svakhet for nåværende generasjons LLMS. Han uttalte,”Dette (eksperimentet) fremhever en kritisk sårbarhet: angrep kan omgå intensjon eller søkeordbasert filtrering ved å utnytte den bredere samtale-konteksten i stedet for å stole på åpenlyst skadelig inngang.”Funnene avslører at sikkerhetssystemer som er fokusert på en-sving-intensjon eller nøkkelordfiltrering er dårlig utstyrt for å håndtere disse lagdelte, samtaleangrepene som utspiller seg over tid.

Et mønster av sårbarhet i Frontier AI-modeller

Denne fengslene er ikke en isolert hendelse, men den siste i en serie en serie en serie en serie en serie en serie en serie en serie en serie en serie en serie. Lanseringen av GROK-4 ble allerede overskygget av forgjengerens antisemittiske nedbrytning og oppdagelsen som den nye modellen konsulterer Elon Musks personlige meninger om X for kontroversielle emner.

mer bredt, gjenspeiler hendelsen et vedvarende mønster av vulnerabiliteter som påvirker selv de mest avanserte AI-systemene. Forskere har tidligere demonstrert mange måter å omgå LLM-rekkverk, fra til “MathPrompt”bypass og sikkerhetstiltak. Etter hvert som modeller blir kraftigere og deres resonnement er mer komplekse, presenterer de også nye overflater for angrep som utviklere sliter med å forutse.

Implikasjonene er betydelige ettersom disse modellene er integrert i kritiske applikasjoner i den virkelige verden. Som Alobaid konkluderte,”understreker våre funn viktigheten av å evaluere LLM-forsvar i flersvinginnstillinger der subtil, vedvarende manipulasjon kan føre til uventet modellatferd.”Brudd på GROK-4 viser at sikring av neste generasjon AI vil kreve et grunnleggende skifte mot dynamiske, kontekstbevisste forsvar, for eksempel spesialiserte LLM-brannmurer.