Slechts enkele dagen na de spraakmakende lancering is Xai’s nieuwe GROK-4 kunstmatige intelligentie met succes jailbroken door beveiligingsonderzoekers. In een rapport gepubliceerd vrijdag , onderzoekers bij neuralTrust gedetailleerden hoe ze het model combineren twee multi hurken combinatie van het team Aanvallen, bekend als”Echo Chamber”en”Crescendo”, om de context van de AI geleidelijk te manipuleren. Deze”gefluisterde”jailbreak werkt zonder openlijk kwaadaardige aanwijzingen, waardoor een kritische fout wordt blootgelegd waar aanhoudende, subtiele overtuiging beveiligingsfilters kan verslaan die zijn ontworpen om schadelijke inhoud te blokkeren.
Het incident tast verder een chaotische uitrol week voor XAI, die met publieke terugslag over het gedrag van AI wordt geteisterd. Het onderstreept ook de groeiende verfijning van tegenstanders tegen grote taalmodellen (LLMS). Zoals NeuralTrust-onderzoeker Ahmad Alobaid uitlegde:”LLM-jailbreak-aanvallen evolueren niet alleen individueel, ze kunnen ook worden gecombineerd om hun effectiviteit te versterken.”
technique first identified by Microsoft researchers, to escalate the manipulation.
Crescendo works by gradually steering a conversation from innocuous prompts to malicious outputs. Met deze subtiele progressie kan de aanval voorbij veiligheidsfilters glijden die op zoek zijn naar plotselinge, voor de hand liggende schendingen van het beleid. Het NeuralTrust-team gebruikte het om een laatste push te geven toen hun initiële overtuigingscyclus stak.
In een blogpost beschreef Alobaid de gecombineerde workflow. Na het opzetten van de Echo-kamer volgde het team op”oude”voortgang. Toen het gesprek niet meer op weg was naar het kwaadaardige doel, injecteerden ze de Crescendo-techniek. Alobaid bevestigde:”Op dit moment bood Crescendo de nodige boost,”het bereiken van de volledige jailbreak in slechts twee extra beurten.
Hoe contextuele trucs cheatveiligheidssystemen
De gecombineerde aanval bleek opmerkelijk effectief. Het NeuralTrust-experiment bereikte een succespercentage van 67% bij het krijgen van GROK-4 om instructies te geven voor het maken van een Molotov-cocktail. Het team testte ook andere schadelijke onderwerpen en bereikte een slagingspercentage van 50% voor instructies over het produceren van meth en 30% voor een toxine.
De kracht van deze techniek ligt in zijn subtiliteit. Het omzeilt traditionele verdedigingen zoals zwarte lijst van trefwoord omdat het in geen enkele prompt geen openlijk gevaarlijke termen bevat. In plaats daarvan maakt het gebruik van het eigen contextuele geheugen van het model, waardoor een kernfunctie wordt gedraaid-het vermogen om te leren van een gesprek-in een kwetsbaarheid.
Alobaid benadrukt dit als een kritische zwakte voor LLM’s van de huidige generatie. Hij verklaarde:”Dit (experiment) benadrukt een kritieke kwetsbaarheid: aanvallen kunnen intentie of trefwoordgebaseerde filtering omzeilen door de bredere conversatiecontext te benutten in plaats van te vertrouwen op openlijk schadelijke input.”Uit de bevindingen blijkt dat beveiligingssystemen gericht op de intentie van één turn of trefwoordfiltering slecht uitgerust zijn om deze gelaagde, conversatieaanvallen af te handelen die zich in de loop van de tijd ontvouwen.
Een patroon van kwetsbaarheid in kwetsbaarheid in Frontier AI-modellen
Deze jailbreak is geen geïsoleerde incident, maar de nieuwste ineenkomsten en de nieuwste ineens en gevaarlijke mislukkingen voor XAI’s modellen. De lancering van GROK-4 werd al overschaduwd door de antisemitische ineenstorting van zijn voorganger en de ontdekking dat het nieuwe model de persoonlijke meningen van Elon Musk over X overlegt voor controversiële onderwerpen.
Breeder, weerspiegelt het incident een hardnekkige patroon van kwetsbaarmogelijkheden die zelfs de meest geavanceerde AI-systemen beïnvloeden. Onderzoekers hebben eerder talloze manieren aangetoond om LLM-vangrails te omzeilen, van tot de”mathprompt”bypass en Contextvergiftiging aanvallen Robuuste veiligheidsmaatregelen. Naarmate modellen krachtiger worden en hun redenering complexer worden, presenteren ze ook nieuwe oppervlakken voor aanval waar ontwikkelaars moeite op hebben te anticiperen.
De implicaties zijn belangrijk omdat deze modellen zijn geïntegreerd in kritieke, real-world applicaties. Zoals Alobaid concludeerde:”Onze bevindingen onderstrepen het belang van het evalueren van LLM-afweer in multi-turn-instellingen waar subtiele, aanhoudende manipulatie kan leiden tot onverwacht modelgedrag.”De GROK-4-inbreuk laat zien dat het beveiligen van de volgende generatie AI een fundamentele verschuiving vereist naar dynamische, contextbewuste verdedigingen, zoals gespecialiseerde LLM-firewalls.