ai Säkerhetsledare Anthropic är proposin En ny politisk ram Syftade mot att öka transparens i utvecklingen av mäktiga”en mäktig”en modeller”en tom”> En ny politisk ram Syftade mot att öka transparency i utvecklingen av mäktiga”en mäktig”en modeller”en tom”> En ny politisk ram Syftade mot att öka transparency i utvecklingen av mäktiga”en mäktig”en modeller”. Förslaget kräver stora AI-företag att offentligt avslöja sina säkerhetsprotokoll genom ett”säkert utvecklingsram”och detaljerade”systemkort.”

Detta drag kommer när AI-industrin står inför växande granskning över en serie säkerhetsfel, säkerhetsbrister och etiska problem. Anthropics “lätta beröring”-strategi syftar till att bygga allmänhetens förtroende och ansvarsskyldighet genom att standardisera säkerhetsrapportering. Det erbjuder ett flexibelt alternativ till styv regeringsreglering samtidigt som man tar upp det brådskande behovet av övervakning.

Den säkra utvecklingsramen förklarade

I dess kärna kräver förslaget utvecklare av de mest kapabla modellerna för att skapa och publicera en Secure Development Framework (SDF) . Detta dokument skulle beskriva hur ett företag bedömer och mildrar orimliga katastrofala risker innan en ny modell distribueras.

Vid sidan av SDF skulle företag publicera”systemkort”eller liknande dokument. Dessa skulle sammanfatta modelltestprocedurer, utvärderingsresultat och eventuella erforderliga mildring. Detta skapar en offentlig post av en modells kapacitet och begränsningar vid tidpunkten för utgivningen.

Standardisering av en frivillig pakt bland regleringsdebatter

antropics förslag medvetet undviker att vara alltför förskrivande. Företaget hävdar att “styva regeringspålagda standarder skulle vara särskilt kontraproduktiva med tanke på att utvärderingsmetoderna blir föråldrade inom månader på grund av den tekniska förändringstakten,” En nick till den snabba innovationstakten som kan göra specifika tekniska regler föråldrade nästan omedelbart.

Politiken är smalt att ansöka om de största utvecklarna. Anthropic föreslår trösklar som 100 miljoner dollar i årliga intäkter eller 1 miljard dollar i FoU-utgifter för att undvika att belasta startups. Det inkluderar också bestämmelser för whistleblower-skydd, vilket gör det olagligt för ett labb att ljuga om dess efterlevnad.

Detta tillvägagångssätt försöker effektivt kodifiera och standardisera vad som för närvarande är frivilliga säkerhetsåtaganden från stora laboratorier. Företag som Google DeepMind, ouenai och Microsoft have already published similar internal frameworks. Anthropics rörelse syftar till att göra dessa upplysningar till en obligatorisk, baslinjepraxis.

Tidpunkten för detta förslag är också politiskt häpnadsväckande. Med en potentiell Trump-administration som enligt uppgift har fokuserat mer på AI-konkurrens än strikta regler, kunde denna branschledda,”lätta beröring”-ramverk ses som en mer smaklig väg framåt för beslutsfattare.

Ett nödvändigt svar på en kaskad av AI-säkerhetskriser

pressen för transparens är inte i en slump. Det är ett direkt svar på ett år som plågas av högprofilerade AI-misslyckanden som har eroderat allmänhetens förtroende. Branschen har kämpat med det framväxande och ofta oförutsägbara beteendet hos sina mest avancerade system.

Nyligen genomförd forskning har avslöjat oroande tendenser. En före detta OpenAI-forskare, Steven Adler, publicerade en studie som hävdar att”moderna AI-system har värden som skiljer sig från vad du kan förvänta dig att vara”, efter att hans tester visade GPT-4O prioritering av självbevarande över användarnas säkerhet. Detta följde Openais egen forskning som identifierade en kontrollerbar”feljusterad persona”inuti sina modeller.

antropisk själv mötte motreaktion över forskning som visar att dess Claude AI kunde utveckla en”whistleblowing”-förmåga och försöka rapportera användare för upplevda omoraliska handlingar. Dessa incidenter belyser ett växande klyftan mellan avsedd funktion och faktiskt beteende.

Utöver oförutsägbart beteende har kritiska säkerhetsbrister avslöjat djupa arkitektoniska sårbarheter.”Echoleak”-felet i Microsoft 365 Copilot var en nollklickutnyttjande som gjorde det möjligt för angripare att lura AI till läckande företagsdata via ett enda e-postmeddelande.

På liknande sätt kunde”toxiska agenten”exploatera, upptäckta av invarian labs, demonstrera hur ai agenter på github kunde manipuleras till leaing till att vara privatpolitiska att attacker är Även inför en räkning över etiska förfall i utplacerade produkter. Apples Mail-app kom under eld för en AI-sorteringsfunktion som felaktigt märkte phishing-e-postmeddelanden som”viktiga”, lånar dem falsk trovärdighet.

Dessa säkerhetsgap och etiska felaktigheter ger vikt till en alarmerande prognos från Gartner, som förutspår att”enligt 2028, 25% av företagsöverträdelser kommer att spåras tillbaka till AI Agent,” från både externa och maliska interna handlingar

Debatten förstärktes av förra årets högprofilerade avgång av Jan Leike, tidigare co-lead för OpenAi’s Safety Team. Han uttalade offentligt att i företaget, “Säkerhetskultur och processer har tagit en baksäte till glänsande produkter,” Ett känsla som resonerade med många kritiker som känner att rasen för förmåga överträffar disciplinen för säkerhet.

antropics föreslagna ramverk är ett tydligt försök att ta itu med denna kris av förtroende. Genom att driva för offentligt ansvar och standardisera säkerhetsupplysningar försöker företaget skapa en ny baslinje för ansvarsfull utveckling. Förslaget fungerar som både ett praktiskt verktyg och ett strategiskt drag för att forma framtiden för AI-förordningen.