Anthropic har introducerat ett nytt säkerhetssystem för sina Claude AI-modeller, vilket minskat framgångsgraden för Jailbreak-attacker från 86% till bara 4,4%.

Företagets nya skyddsåtgärd, kallad Konstitutionella klassificerare , är utformad för att filtrera både inkommande uppmaningar och AI-genererade svar för att förhindra manipulationsförsök.

Medan detta system representerar ett av de mest effektiva AI-säkerhetsförsvar som hittills har använts, ger det också avvägningar, inklusive en 23,7% ökning av datorkostnader och enstaka falska positiva frågor som blockerar legitima frågor.

AI Jailbreaking has remained a persistent issue in large language models (LLMs), with adversaries using Kreativa tekniker för att kringgå inbyggda begränsningar. Angripare har framgångsrikt utnyttjat AI-sårbarheter genom metoder som rollspel scenarier och formateringstricks som förvirrar innehållsmodereringsfilter.

RELATERADE: AI Safety Index 2024 Resultat: OpenAI, Google, Meta, XAI faller kort; Antropisk på topp

Medan AI-utvecklare konsekvent har lappat specifika exploater, Forskare har varnat Att ingen AI-modell Hittills har varit helt resistenta mot jailbreaks.

antropic har varit ett av de mer vokalföretagen i AI-säkerhet och positionerat sig som en förespråkare för strängare säkerhetsåtgärder. Företaget rankade det högsta i AI-säkerhetsindexet 2024 och överträffade konkurrenter som OpenAI, Google och Meta.

Men när AI-kapaciteten expanderar fortsätter riskerna i samband med jailbreaks att utvecklas, vilket gör förebyggande säkerhetsstrategier mer kritiska än någonsin.

relaterade: chatgpt’Time Bandit’exploit förbi OpenAI-skyddsåtgärder som använder tidsförvirring

Varför jailbreaking AI-modeller är ett växande problem

de flesta AI-modeller har inbyggda begränsningar för att förhindra dem från att generera innehåll relaterat till vapen, cyberbrott eller andra begränsade ämnen. Användare har emellertid upprepade gånger hittat sätt att kringgå dessa skyddsåtgärder. Vanliga jailbreak-tekniker inkluderar:

prompteknik , där angripare instruerar AI till rollspel som en fiktiv karaktär utan etiska begränsningar.

Formatering av manipulation , till exempel att infoga specialtecken eller ändra meningsstrukturer för att kringgå innehållsfilter.

chifferbaserad obfuscation , i vilken text kodas på sätt som AI-modellerna Kan fortfarande tolka medan säkerhetslager misslyckas med att upptäcka begäran.

jailbreak-attacker har varit en känd fråga sedan minst 2013, då tidiga neurala nätverk visade sig vara mottagliga för motsatser. Trots pågående förfiningar i AI-säkerheten har forskare ännu inte utvecklat ett system som är helt motståndskraftigt mot dessa tekniker.

Relaterat: Deepseeks AI-säkerhet under eld: 100% jailbreak-framgång exponerar kritisk Brister

antropics tillvägagångssätt skiljer sig från tidigare AI-säkerhetsinsatser genom att införa ett externt filter snarare än att modifiera själva AI-modellen.

Företagets ansvarsfulla skalningspolicy beskriver behovet av förbättrade skyddsåtgärder innan de distribuerar mer avancerade modeller. Den konstitutionella klassificeraren är ett exempel på hur företaget prioriterar säkerheten när AI blir mer sofistikerad.

Hur Anthropics konstitutionella klassificerare fungerar

istället för att förändra CLAUDEs interna interna interna Modellarkitektur, Anthropic utvecklade den konstitutionella klassificeraren som ett externt system som avlyssnar och utvärderar både användaringångar och AI-genererade utgångar.

Klassificeraren fungerar som ett filter och analyserar förfrågningar om mönster som indikerar jailbreak-försök. Om en fråga anses vara misstänksam blockeras den innan den når AI-modellen, vilket förhindrar oavsiktliga svar.

Relaterat: AI Agent Safety: Nvidia avslöjar mikroservices för innehåll och jailbreak-kontroll

Systemet tränades med hjälp av syntetiska data med hjälp av exempel på både acceptabla och oacceptabla AI-genererade interaktioner. Anthropic använde detta tillvägagångssätt för att exponera klassificeraren för ett brett spektrum av motståndstekniker, inklusive variationer i språk, syntax och formatering.

Dessa datasätt översattes till flera språk och förfinades baserat på kända exploatstilar, vilket säkerställer en bredare effektivitet.

antropisk forskare Mrinank Sharma , som ledde utvecklingen av Systemet, som betonas för MIT Technology Review Betydelsen av att rikta in sig på de allvarligaste jailbreak-försöken.

“Det finns jailbreaks som får en liten bit av skadliga saker ur modellen, som, kanske de får modellen att svära,”förklarade Sharma.”Sedan finns det jailbreaks som bara vänder säkerhetsmekanismerna av helt.”

Testning av systemet: en $ 15.000 Jailbreak Challenge

För att validera dess effektivitet lanserade Anthropic ett bug bounty-program och erbjuder $ 15.000 till alla som alla som alla som kan tvinga Claude att svara på tio begränsade frågor. Utmaningen drog deltagande från 183 testare, inklusive erfarna AI-jailbreakers och säkerhetsforskare, som kollektivt tillbringade över 3 000 timmar på att försöka kringgå systemet.

Trots omfattande försök, kunde ingen deltagare få Claude att svara på alla tio begränsade frågor. Det närmaste någon kom var framgångsrikt förbi filtret på fem av tio frågor. I ett separat automatiskt test körde antropisk dessutom 10 000 AI-genererade jailbreakförsök mot dess klassificerare.

RELATERADE: y0u ha5ε tu wr1tε l1Ke thl5 för att bryta GPT-4O, Gemini Pro och Claude 3.5 Sonnet AI Safety Measures

utan försvarsskiktet, The, The, the the Modellen misslyckades i 86% av fallen och gav svar som borde ha blockerats. Med klassificeraren på plats sjönk den felfrekvensen till 4,4%.

Anthropic Universal Jailbreak Testing site for Constitutional Classifiers

Carnegie Mellon University researcher Alex Robey, who has studied AI security vulnerabilities, described to MIT Technology Review the results as unusually stark.”Det är sällsynt att se utvärderingar gjort i denna skala,”sade Robey.”De visade tydligt robusthet mot attacker som har varit kända för att kringgå de flesta andra produktionsmodeller.”

“Att få försvar rätt är alltid en balansåtgärd”, tillade Robey och förespråkar för skiktade säkerhetsstrategier som integrerar olika detekteringstekniker.

avvägningarna: falska positiva och Ökade kostnader

Medan Anthropics konstitutionella klassificerare representerar ett stort framsteg i AI-säkerheten, introducerar det också vissa avvägningar.

Vissa användare rapporterade att klassificeringen ibland flaggade ofarliga frågor, särskilt inom tekniska områden som biologi och kemi. Betydelse av vissa giltiga förfrågningar kan fortfarande nekas.

Ett annat betydande problem är den ökade beräkningsbehovet. Som ett resultat höjer systemet driftskostnaderna med 23,7%. Detta kan göra distributionen dyrare, särskilt för företag som driver storskaliga AI-applikationer.

Trots dessa nackdelar hävdar antropiska att de ökade säkerhetsförmånerna uppväger avvägningarna. Företagets engagemang för AI-säkerhet har varit ett avgörande inslag i dess tillvägagångssätt, som beskrivs i dess ansvarsfulla skalningspolicy, som kräver stränga säkerhetsutvärderingar innan de startar mer avancerade AI-modeller. Att balansera säkerhet och användbarhet förblir emellertid en pågående utmaning.

reglerande granskning och konkurrenskraftiga konsekvenser

Införandet av starkare AI-säkerhetsåtgärder kommer vid en tidpunkt då regeringar och reglerande organ ökar sin granskning av AI-modeller. Med oro över AI-driven felinformation, cyberhot och obehöriga användningsfall pressar tillsynsmyndigheter för större transparens och strängare säkerhetsprotokoll.

Anthropics ansträngningar i linje med det bredare drivkraften för AI-ansvar, ett viktigt tema i initiativ. till exempel EU AI-lagen, som syftar till att fastställa tydliga riktlinjer för AI-riskhantering. Företaget står emellertid också inför granskning av andra skäl, särskilt när det gäller företagets partnerskap. Dess investeringar på 2 miljarder dollar från Google är för närvarande under utredning av Storbritanniens konkurrens-och marknadsmyndighet (CMA), som bedömer om en sådan ekonomisk stöd ger Google onödigt inflytande över AI-utvecklingen.

Dessa regleringsinsatser återspeglar växande oro för att det En handfull stora teknikföretag kan få för mycket kontroll över AI-innovation. Medan Anthropic har positionerat sig som en förespråkare för ansvarsfull AI, förblir dess finansieringskällor och partnerskap ett ämne för debatt inom bransch-och policyrkretsar.

Framtiden för AI Security: Vad kommer nästa?

Trots sin framgång med att blockera de flesta kända jailbreaks är den konstitutionella klassificeraren inte en absolut fix. Jailbreakers utvecklar ständigt nya tekniker för att manipulera AI-modeller, och forskare varnar för att framtida attacker kan bli ännu mer sofistikerade.

En framväxande utmaning är den potentiella användningen av Cipher-baserade jailbreaks, där angripare kodar för uppmaningar på ett sätt Det gör att AI kan tolka dem medan säkerhetslager misslyckas med att upptäcka manipulationen.

Yuekang Li, forskare vid University of New South Wales, varnade för att sådana metoder kunde utgöra ett allvarligt problem.”En användare kunde kommunicera med modellen med en krypterad text om modellen är tillräckligt smart och enkelt förbigår denna typ av försvar,”kommenterade Li till MIT Technology Review.

Anthropic har erkänt dessa problem och har öppnat upp sin Konstitutionell klassificering för vidare testning. Hitta svagheter i systemet.

Vi utmanar dig att bryta vårt nya jailbreaking försvar!

Det finns 8 nivåer kan du hitta en enda jailbreak för att slå dem alla? https://t.co/9y0fit79pn

-jan leike (@janleike) 3 februari 2025

Genom Crowdsourcing Potential Vulnerabilities hoppas företaget att hålla sig före Emerging Attack Strategies och förädla dess försvar enligt deras försvar Följaktligen.

Categories: IT Info