Néhány nappal a magas rangú bevezetése után az Xai új Grok-4 mesterséges intelligenciáját a biztonsági kutatók sikeresen börtönbe helyezték. A Jelentés pénteken közzétett jelentés A Neuraltrust kutatói részletezték, hogy a csapat kombinált convergations-t készítsenek egy molotovi koktozók készítésére. Mint „visszhangkamra” és „crescendo”, hogy fokozatosan manipulálja az AI kontextusát. Ez a „suttogott” jailbreak nyilvánvalóan rosszindulatú utasítások nélkül működik, és olyan kritikus hibát mutat ki, amelyben a tartós, finom meggyőzés legyőzheti a káros tartalom blokkolására tervezett biztonsági szűrőket. Ezenkívül hangsúlyozza a nagy nyelvi modellek (LLM) elleni egymással szembeni támadások növekvő kifinomultságát. Ahogyan Ahmad Alobaid neuraltrust kutatója elmagyarázta: „Az LLM börtönbreak támadások nemcsak egyénileg fejlődnek, ők is kombinálhatók, hogy erősítsék hatékonyságukat.”Kombinált jailbreaks

A kutatók stratégiája a jailbreak technikák jelentős fejlődését képviseli. Az Echo Kamara módszerrel kezdeményezték a jogsértést. Ez a támadás kihasználja az LLM hajlandóságát a bizalom konzisztenciájára azáltal, hogy „mérgező” kontextust hozzon létre többszörös, látszólag különálló csevegések során, hogy normalizálja a káros ötletet. Ezen a ponton a csapat telepítette a Crescendo támadást, a technikát, amelyet először a Microsoft kutatói által azonosított, a Microsoft kutatásainak fokozatosan, az innocolous-tól kezdve. Ez a finom progresszió lehetővé teszi a támadás számára, hogy elcsúszjon a múltbeli biztonsági szűrőknek, amelyek a politika hirtelen, nyilvánvaló megsértését keresik. A Neuraltrust csapat azt használta, hogy végső lendületet adjon, amikor a kezdeti meggyőző ciklusuk elakad. Az Echo Kamara létrehozása után a csapat figyelte az „elavult” előrehaladást. Amikor a beszélgetés nem ment a rosszindulatú cél felé, injektálták a crescendo technikát. Alobaid megerősítette: „Ezen a ponton a Crescendo biztosította a szükséges lendületet”, a teljes börtönbreak mindössze két további fordulatban való elérése. A neuraltrust kísérlet 67%-os sikerességi arányt ért el a GROK-4 megszerzésében, hogy utasításokat adjon a Molotov koktél készítéséhez. A csapat más káros témákat is tesztelt, elérve az 50%-os sikerességi rátát a metoxin és 30%-os utasításokhoz. Megkerüli a hagyományos védekezést, mint például a kulcsszó feketelisták, mivel egyetlen promptban sem tartalmaz nyíltan veszélyes kifejezést. Ehelyett kihasználja a modell saját kontextuális memóriáját, amely egy alapvető tulajdonságot fordít-a beszélgetésből való tanulási képesség-egy sebezhetőségre. Azt állította:”Ez (kísérlet) kiemeli a kritikus sebezhetőséget: a támadások megkerülhetik a szándékot vagy a kulcsszó-alapú szűrést a szélesebb körű beszélgetési környezet kiaknázásával, ahelyett, hogy a nyíltan káros bemenetre támaszkodnának.”A megállapítások azt mutatják, hogy az egy fordulási szándékra vagy a kulcsszószűrésre összpontosító biztonsági rendszerek nem megfelelőek ezeknek a rétegelt, beszélgető támadásoknak az idővel kibontakozására. A Grok-4 elindítását már elárasztotta elődje antiszemitikus összeomlása és annak felfedezése, hogy az új modell Elon Musk személyes véleményével konzultál az ellentmondásos témákkal kapcsolatban. A kutatók korábban számos módszert mutattak be az LLM védőkorlátok megkerülésére, a to A„ MathPrompt “bypass és Kontextusmérgező támadások . Robusztus biztonsági intézkedések. Ahogy a modellek erősebbé válnak, és érvelésük bonyolultabb, új felületeket mutatnak be a támadásokhoz, amelyeket a fejlesztők küzdenek az előrejelzés érdekében. Amint Alobaid arra a következtetésre jutott:”Megállapításaink hangsúlyozzák az LLM védelmének értékelésének fontosságát a több fordulási beállításokban, ahol a finom, tartós manipuláció váratlan modell viselkedéséhez vezethet.”A Grok-4 megsértés azt mutatja, hogy az AI következő generációjának biztosítása alapvető elmozdulást igényel a dinamikus, kontextus-tudósító védekezés felé, például a speciális LLM tűzfalak.

Categories: IT Info