Bara några dagar efter den högprofilerade lanseringen har XAI: s nya Grok-4-konstgjorda intelligens framgångsrikt fängslats av säkerhetsforskare. I en Rapport publicerad fredag , forskare på neuralTrust detaljerade hur de förbi modellens säkerhet GuardRails till generat instruktioner för att göra en cockaller. Attacker, känd som”Echo Chamber”och”Crescendo”, för att manipulera AI: s sammanhang gradvis. Denna”viskade”jailbreak fungerar utan några öppet skadliga uppmaningar, och avslöjar en kritisk brist där ihållande, subtil övertalning kan besegra säkerhetsfilter som är utformade för att blockera skadligt innehåll.

Incidenten ytterligare plågar en kaotisk utrullningsvecka för XAI, som har kämpats med offentligt bakslag över sina AI: s beteende. Det understryker också den växande sofistikeringen av motsatsattacker mot stora språkmodeller (LLM). As NeuralTrust researcher Ahmad Alobaid explained, “LLM jailbreak attacks are not only evolving individually, they can also be combined to amplify their effectiveness.”

A Stealthy Backdoor Genom kombinerade jailbreaks

representerar forskarnas strategi en betydande utveckling inom jailbreak-tekniker. De initierade överträdelsen med hjälp av Echo Chamber-metoden. Denna attack utnyttjar en LLM: s tendens att lita på konsistens genom att skapa ett”giftigt”sammanhang över flera, till synes separata chattar för att normalisera en skadlig idé.

Denna konditionering primerar modellen, men det räckte inte för att helt bryta Grok-4: s försvar på egen hand. Vid den tidpunkten satte teamet ut Crescendo-attacken, a Teknik först identifierade av Microsoft-forskare , att eskalera manipulationen. Denna subtila progression gör det möjligt för attacken att glida förbi säkerhetsfilter som letar efter plötsliga, uppenbara kränkningar av politiken. NeuralTrust-teamet använde det för att ge ett sista tryck när deras första övertalningscykel stannade.

I ett blogginlägg detaljerade Alobaid det kombinerade arbetsflödet. Efter att ha etablerat Echo-kammaren övervakade teamet för “inaktuella” framsteg. När konversationen slutade gå mot det skadliga målet injicerade de crescendo-tekniken. Alobaid bekräftade,”Vid denna tidpunkt tillhandahöll Crescendo det nödvändiga uppsvinget”, vilket uppnådde hela jailbreak i bara ytterligare två varv.

Hur kontextuella tricks fusksäkerhetssystem

Den kombinerade attacken visade sig anmärkningsvärt effektiv. NeuralTrust-experimentet uppnådde 67% framgångsrate för att få GROK-4 för att ge instruktioner för att göra en Molotov-cocktail. Teamet testade också andra skadliga ämnen och nådde en 50% framgångsrate för instruktioner om att producera meth och 30% för ett toxin.

Denna teknikens kraft ligger i dess subtilitet. Det kringgår traditionella försvar som svarta ord för nyckelord eftersom det inte innehåller några öppet farliga termer i någon enskild prompt. Istället utnyttjar den modellens eget kontextuella minne och vänder en kärnfunktion-dess förmåga att lära av konversation-till en sårbarhet.

alobaid belyser detta som en kritisk svaghet för nuvarande generationens LLM. Han sade:”Detta (experiment) belyser en kritisk sårbarhet: Attacker kan kringgå avsikt eller nyckelordbaserad filtrering genom att utnyttja det bredare konversationskontext snarare än att förlita sig på öppet skadliga input.”Resultaten avslöjar att säkerhetssystem som är inriktade på enkelvarvt avsikt eller sökordsfiltrering är dåligt utrustade för att hantera dessa skiktade, konversationsattacker som utvecklas över tid.

Ett mönster av sårbarhet i en serie AI-modeller

Detta jailbreak är inte en isolerad incident men det senaste i en serie av EmpRassation och farliga misslyckanden. Lanseringen av GROK-4 överskuggades redan av sin föregångares antisemitiska nedbrytning och upptäckten att den nya modellen konsulterar Elon Musks personliga åsikter om X för kontroversiella ämnen.

I större utsträckning återspeglar incidenten ett ihållande mönster av sårbarhet som påverkar även de mest avancerade AI-systemen. Forskare har tidigare visat många sätt att kringgå LLM-skyddsräcken, från “MathPrompt”bypass och Kontextförgiftningar .

Dessa utnyttjar belyser en fundamental in ai-utveckling. åtgärder. När modellerna blir mer kraftfulla och deras resonemang mer komplexa presenterar de också nya ytor för attack som utvecklare kämpar för att förutse.

Implikationerna är betydande eftersom dessa modeller är integrerade i kritiska, verkliga applikationer. Som Alobaid avslutade:”Våra resultat understryker vikten av att utvärdera LLM-försvar i flera svängningsinställningar där subtila, ihållande manipulation kan leda till oväntat modellbeteende.”GROK-4-överträdelsen visar att säkerställa nästa generation av AI kommer att kräva en grundläggande förskjutning mot dynamiska, sammanhangsmedvetna försvar, såsom specialiserade LLM-brandväggar.

Categories: IT Info