Anthropics nye AI Shield kutter LLM Jailbreaks med 95%-men til en pris

Anthropic har introdusert et nytt sikkerhetssystem for sine Claude AI-modeller, noe som reduserer suksessraten for jailbreak-angrep fra 86% til bare 4,4%.

Selskapets nye beskyttelse, kalt konstitusjonelle klassifiserere , er designet for å filtrere både innkommende spørsmål og AI-genererte svar for å forhindre manipulasjonsforsøk.

Mens dette systemet representerer et av de mest effektive AI-sikkerhetsforsvaret som er distribuert så langt, bringer det også avveininger, inkludert en økning på 23,7% i datakostnader og sporadiske falske positiver som blokkerer legitime spørsmål.

Kreative teknikker for å omgå innebygde begrensninger. Angripere har med hell utnyttet AI-sårbarheter gjennom metoder som rollespill-scenarier og formatering av triks som forveksler innholdsmoderasjonsfilter.

Relatert: ai Safety Index 2024 Resultater: Openai, Google, Meta, Xai Dall Short; Antropisk på topp

Mens AI-utviklere konsekvent har lappet spesifikke utnyttelser, Forskere har advart at ingen AI-modell Så langt har vært helt motstandsdyktig mot jailbreaks.

Antropisk har vært et av de mer vokale selskapene i AI-sikkerhet, og posisjonert seg som en talsmann for strengere sikkerhetstiltak. Selskapet rangerte det høyeste i 2024 AI Safety Index, og overgikk konkurrenter som Openai, Google og Meta.

Imidlertid, når AI-funksjonene utvides, fortsetter risikoen forbundet med jailbreaks å utvikle seg, noe Time Bandit’utnyttelse avgår Openai-beskyttelse ved bruk av tidsforvirring

hvorfor jailbreaking AI-modeller er en økende bekymring

De fleste AI-modeller har innebygde begrensninger for å forhindre dem Fra å generere innhold relatert til våpen, nettkriminalitet eller andre begrensede emner. Imidlertid har brukerne gjentatte ganger funnet måter å omgå disse sikkerhetstiltakene på. Vanlige jailbreak-teknikker inkluderer:

hurtig engineering , der angripere instruerer AI til rollespill som en fiktiv karakter uten etiske begrensninger.

Formatering av manipulasjon , for eksempel å sette inn spesialtegn eller endre setningsstrukturer for å omgå innholdsfilter.

chifferbasert obfuscation , der tekst er kodet på måter AI-modeller Kan fortsatt tolke mens sikkerhetslag ikke klarer å oppdage forespørselen.

Jailbreak-angrep har vært et kjent spørsmål siden minst 2013, da tidlige nevrale nettverk ble funnet å være mottakelige for motstridende spørsmål. Til tross for pågående foredlinger i AI-sikkerhet, har forskere ennå ikke utviklet et system som er helt motstandsdyktig mot disse teknikkene.

Relatert: DeepSeek’s AI Security Under Fire: 100% Jailbreak Suksess utsetter kritisk Mangler

Antropisk tilnærming skiller seg fra tidligere AI-sikkerhetsinnsats ved å innføre et eksternt filter i stedet for å endre AI-modellen.

Selskapets ansvarlige skaleringspolitikk skisserer behovet for forbedrede sikkerhetstiltak før de distribuerer mer avanserte modeller. Den konstitusjonelle klassifisereren er et eksempel på hvordan selskapet prioriterer sikkerhet etter hvert som AI blir mer sofistikert.

hvordan antropisk konstitusjonelle klassifiserer fungerer

i stedet for å endre Claude’s interne Modellarkitektur, anthropic utviklet den konstitusjonelle klassifisereren som et eksternt system som avskjærer og evaluerer både brukerinnganger og AI-genererte utganger.

Klassifisereren fungerer som et filter, og analyserer forespørsler om mønstre som indikerer jailbreak-forsøk. Hvis en spørring anses som mistenkelig, blokkeres den før den når AI-modellen, og forhindrer utilsiktede svar.

Relatert: AI Agent Safety: Nvidia avdekker mikroservices for innhold og jailbreak-kontroll

Systemet ble opplært ved hjelp av syntetiske data ved å bruke eksempler på både akseptable og uakseptabelt, AI-genererte interaksjoner. Antropisk brukte denne tilnærmingen for å eksponere klassifisereren for et bredt spekter av motstridende teknikker, inkludert variasjoner i språk, syntaks og formatering.

Disse datasettene ble oversatt til flere språk og foredlet basert på kjente utnyttelsesstiler, noe som sikret bredere effektivitet.

Antropisk forsker Mrinank Sharma , som ledet utviklingen av Systemet, understreket til MIT Technology Review Viktigheten av å målrette de alvorligste jailbreak-forsøkene.

“Det er jailbreaks som får en liten liten bit av skadelige ting ut av modellen, som, kanskje de får modellen til å banne,”forklarte Sharma.”Så er det jailbreaks som bare snur sikkerhetsmekanismene av helt.”

Testing av systemet: En 15.000 Jailbreak Challenge

For å validere effektiviteten, lanserte Anthropic et bug-programsprogram, og tilbyr $ 15.000 til alle som kunne tvinge Claude til å svare på ti begrensede spørsmål. Utfordringen trakk deltakelse fra 183 testere, inkludert erfarne AI-jailbreakers og sikkerhetsforskere, som samlet brukte over 3000 timer på å prøve å omgå systemet.

Til tross for omfattende forsøk, var ingen deltaker i stand til å få Claude til å svare på alle ti Begrensede spørsmål. Det nærmeste noen kom var med hell å omgå filteret på fem av ti spørsmål. I en egen automatisert test kjørte antropisk 10.000 AI-genererte jailbreak-forsøk mot klassifisereren.

Relatert: y0u ha5ε tu wr1tε l1ke thl5 for å bryte GPT-4O, Gemini Pro og Claude 3.5 Sonnet AI Sikkerhetstiltak

Uten forsvarslaget, the Modellen mislyktes i 86% av tilfellene, og ga svar som burde vært blokkert. Med klassifisereren på plass falt feilhastigheten til 4,4%.

Anthropic Universal Jailbreak Testing Site for Constitutional Classifiers

Carnegie Mellon University-forsker Alex Robey, som har studert AI-sikkerhetssårbarheter, beskrevet for MIT-teknologi som Results som UNSUS som UNSUS USUUS som UNSUS som UNSUS AS AI Sikkerhetssikkerhetssikkerhet, beskrevet for MIT-forsker Alex Robey, som har studert AI Security Mellon Mellon University-forsker Alex Robey, som har studert AI-sterk.”Det er sjelden å se evalueringer gjort i denne skalaen,”sa Robey.”De demonstrerte tydelig robusthet mot angrep som har vært kjent for å omgå de fleste andre produksjonsmodeller.”

“Å få forsvarsrett Økte kostnader

Mens Anthropics konstitusjonelle klassifiserer representerer et stort fremskritt innen AI-sikkerhet, introduserer det også visse avveininger.

Noen brukere rapporterte at klassifiseringen tidvis flagget ufarlige spørsmål, spesielt innen tekniske felt som biologi og kjemi. noe som betyr at noen gyldige forespørsler fremdeles kan nektes.

En annen betydelig bekymring er den økte beregningsmessige etterspørselen. Som et resultat øker implementering av systemet driftskostnader med 23,7%. Dette kan gjøre distribusjonen dyrere, spesielt for bedrifter som kjører i storstilt AI-applikasjoner.

Til tross for disse ulempene, argumenterer Anthropic for at den økte sikkerhetsfordelene oppveier avveiningene. Selskapets forpliktelse til AI-sikkerhet har vært et avgjørende trekk ved tilnærmingen, som beskrevet i sin ansvarlige skaleringspolitikk, som krever strenge sikkerhetsevalueringer før de lanserer mer avanserte AI-modeller. Balansering av sikkerhet og brukervennlighet er imidlertid fortsatt en kontinuerlig utfordring.

Regulatorisk kontroll og konkurransedyktige implikasjoner

Innføringen av sterkere AI-sikkerhetstiltak kommer på et tidspunkt hvor regjeringer og reguleringsorganer øker sin granskning av AI-modeller. Med bekymring for AI-drevet feilinformasjon, cybertrusler og uautoriserte brukssaker, presser regulatorer for større åpenhet og strengere sikkerhetsprotokoller.

Antropics innsats er i samsvar med det bredere presset for AI-ansvarlighet, et sentralt tema i initiativene som EU AI Act, som tar sikte på å etablere klare retningslinjer for AI-risikostyring. Selskapet står imidlertid også overfor gransking av andre grunner, spesielt når det gjelder selskapets partnerskap. Investeringene på 2 milliarder dollar fra Google er for tiden under utredning av Storbritannias Competition and Markets Authority (CMA), som vurderer om slik økonomisk støtte gir Google unødig innflytelse over AI-utvikling.

Denne reguleringsinnsatsen gjenspeiler økende bekymring for at En håndfull store teknologiske firmaer kan få for mye kontroll over AI-innovasjon. Mens Anthropic har posisjonert seg som en talsmann for ansvarlig AI, forblir finansieringskilder og partnerskap et tema for debatt innen industri-og politiske kretser.

Fremtiden for AI-sikkerhet: Hva kommer neste?

Til tross for at de har suksess med å blokkere mest kjente jailbreaks, er den konstitusjonelle klassifisereren ikke en absolutt løsning. Jailbreakers utvikler stadig nye teknikker for å manipulere AI-modeller, og forskere advarer om at fremtidige angrep kan bli enda mer sofistikerte.

En fremvoksende utfordring er den potensielle bruken av chifferbaserte jailbreaks, der angripere koder for spørsmål på en måte Det lar AI tolke dem mens sikkerhetslag ikke klarer å oppdage manipulasjonen.

Yuekang Li, forsker ved University of New South Wales, advarte om at slike metoder kan utgjøre et alvorlig problem.”En bruker kan kommunisere med modellen ved hjelp av kryptert tekst hvis modellen er smart nok og enkelt omgå denne typen forsvar,”kommenterte Li til MIT-teknologigjennomgang.

Antropisk har erkjent disse bekymringene og har åpnet for sin Konstitusjonell klassifiserer for videre testing. Finn svakheter i systemet.gif; base64, r0lgodlhaqabaaaaach5baekaaealaaaaaBaaaaaaictaeaow==”>

Mens selskapet har vist imponerende fremgang med å redusere jailbreak-sårbarheter, vil den langsiktige effektiviteten av tilnærmingen avhenge av hvor raskt den kan tilpasse seg nye trusler. Med regulatorisk granskning som intensiverer og AI-styringsrammer som utvikler Pågående våpenløp. Anthropics konstitusjonelle klassifiserer representerer et meningsfylt skritt mot sikrere AI-systemer, men det fremhever også utfordringene med å balansere sikkerhet, brukervennlighet og kostnad.

Anthropics nye AI Shield kutter LLM Jailbreaks med 95%-men til en pris

Published by All Things Windows on February 3, 2025

hvorfor jailbreaking AI-modeller er en økende bekymring

hvordan antropisk konstitusjonelle klassifiserer fungerer

Testing av systemet: En 15.000 Jailbreak Challenge

Regulatorisk kontroll og konkurransedyktige implikasjoner

Fremtiden for AI-sikkerhet: Hva kommer neste?

IT Info

Bytedance Omnihuman-1 AI-modell kan lage video-dypfaks fra bare ett bilde

IT Info

Hvordan deaktivere Chrome Auto Update i Windows 11 og 10

IT Info

Windows 11 Build 22635.4870 (KB5050087) bringer Lock Screen-endringer i Beta Channel

Anthropics nye AI Shield kutter LLM Jailbreaks med 95%-men til en pris

Published by All Things Windows on February 3, 2025

hvorfor jailbreaking AI-modeller er en økende bekymring

hvordan antropisk konstitusjonelle klassifiserer fungerer

Testing av systemet: En 15.000 Jailbreak Challenge

Regulatorisk kontroll og konkurransedyktige implikasjoner

Fremtiden for AI-sikkerhet: Hva kommer neste?

Related Posts

IT Info

Bytedance Omnihuman-1 AI-modell kan lage video-dypfaks fra bare ett bilde

IT Info

Hvordan deaktivere Chrome Auto Update i Windows 11 og 10

IT Info

Windows 11 Build 22635.4870 (KB5050087) bringer Lock Screen-endringer i Beta Channel