AI Lider bezpieczeństwa Anthropic jest propozycją nowe ramy polityki mające na celu zwiększenie przejrzystości w rozwoju potężnych modeli „frontu” AI. Propozycja wzywa dużych firm AI do publicznego ujawnienia swoich protokołów bezpieczeństwa poprzez „bezpieczne ramy rozwoju” i szczegółowe „karty systemowe.”
Ten ruch pojawia się, gdy przemysł AI staje w obliczu rosnącej kontroli nad szeregiem niepowodzeń bezpieczeństwa, wad bezpieczeństwa i problemów etycznych. Podejście „lekkie” antropiku ma na celu budowanie zaufania publicznego i odpowiedzialności poprzez standaryzację raportowania bezpieczeństwa. Oferuje elastyczną alternatywę dla sztywnych regulacji rządowych Podczas zaspokajania pilnej potrzeby nadzoru.
Bezpieczne ramy rozwojowe wyjaśniono
W jego rdzeniu propozycja wymaga od programistów najbardziej zdolnych modeli do tworzenia i opublikowania A Bezpieczne ramki rozwoju (sdf) . Ten dokument określiłby, w jaki sposób firma ocenia i łagodzi nieuzasadnione katastroficzne ryzyko przed wdrożeniem nowego modelu.
frameworks definiuje te Catasthiccic. Kieruje się zagrożeniami z powodu rozwoju broni chemicznej, biologicznej, radiologicznej i jądrowej (CBRN). Dotyczy to również potencjalnych szkód od modeli, które działają autonomicznie w sposób sprzeczny z intencją ich programistów.
Wraz z SDF firmy opublikowałyby „karty systemowe” lub podobne dokumenty. Podsumowałyby one procedury testowania modelu, wyniki oceny i wszelkie wymagane łagodzenie. Stwarza to publiczny zapis możliwości i ograniczeń modelu w momencie jego wydania.
Standaryzacja dobrowolnego paktu wśród debat regulacyjnych
Propozycja antropika celowo unikać nadmiernego nakazu. Firma twierdzi, że „sztywne standardy narzucone przez rząd byłyby szczególnie efektowne, biorąc pod uwagę, że metody oceny stają się nieaktualne w ciągu miesięcy z powodu tempa zmian technologicznych”, ukłon w stronę szybkiego tempa innowacji, które mogą sprawić, że określone reguły techniczne niemal natychmiast.
Polityka jest wąsko zaskakowana do zastosowania tylko wobec największych deweloperów. Anthropic sugeruje progi takie jak 100 milionów dolarów rocznych przychodów lub 1 miliarda dolarów wydatków na badania i rozwój, aby uniknąć obciążenia startupów. Obejmuje również przepisy dotyczące ochrony informatorów, co czyni laboratorium kłamstwa na temat jego zgodności.
To podejście skutecznie ma na celu kodyfikację i standaryzację zobowiązań dobrowolnych z głównych laboratoriów. Firmy takie jak Google DeepMind, Openai i Microsoft już opublikował podobne internautowe frameworks. Ruch antropika ma na celu uczynienie tych ujawnień obowiązkową, podstawową praktyką.
Czas tej propozycji jest również sprytna politycznie. Ponieważ potencjalna administracja Trumpa podobno skupiała się bardziej na konkurencji AI niż ścisłych zasadach, te prowadzone przez branżę ramy „lekkie dotykania” można było postrzegać jako bardziej smaczną ścieżkę do przodu dla decydentów.
Niezbędna odpowiedź na kaskadę kryzysów bezpieczeństwa AI
Push dla przejrzystości. Jest to bezpośrednia odpowiedź na rok nękany głośnymi niepowodzeniami AI, które osłabiły zaufanie publiczne. Przemysł zmagał się z powstającymi i często nieprzewidywalnymi zachowaniem swoich najbardziej zaawansowanych systemów.
Ostatnie badania ujawniły niepokojące tendencje. Były badacz Openai, Steven Adler, opublikował badanie, w którym stwierdzono, że „nowoczesne systemy AI mają wartości, które różnią się od tego, czego można się spodziewać”, po tym, jak jego testy wykazały, że GPT-4O priorytetuje samoocewalność przed bezpieczeństwem użytkowników. Było to zgodne z własnymi badaniami Openai, identyfikującymi kontrolowaną „niewspółponowaną osobowość” w jej modelach.
sama antropika stała czoła reakcji na badania, co pokazuje, że jego Claude AI może rozwinąć zdolność „informowania o informowaniu”, próbując zgłosić użytkowników do postrzeganych niemoralnych aktów. Incydenty te podkreślają rosnącą lukę między zamierzoną funkcją a faktycznym zachowaniem.
poza nieprzewidywalnym zachowaniem, krytyczne wady bezpieczeństwa ujawniły głębokie luki architektoniczne. Wady „echolek” w Microsoft 365 Copilot była exploitem zerowym kliknięciem, który pozwolił atakującym nakłonić sztuczną inteligencję do wycieku danych korporacyjnych za pośrednictwem jednego e-maila.
Podobnie exploit „toksyczny przepływ agenta”, odkryte przez niezmienne laboratoria, pokazał, jak agenci AI na Github może być manipulowane przez dane prywatne poprzez atakowe ataki. W obliczu liczenia na etyczne upadki we wdrażanych produktach. Aplikacja Apple Mail była pod ostrzałem w przypadku funkcji sortowania AI, która błędnie oznaczała e-maile phishingowe jako „ważne”, pożyczając im fałszywą wiarygodność.
Te luki w bezpieczeństwie i etyczne błędy nadają się do alarmującej prognozy od Gartnera, która przewiduje, że „do 2028 r., 25% przewagi przedsiębiorczości zostaną powrócone do AI Agent,” od zarówno aktorów zewnętrznych, jak i złośliwych analizy wewnętrznych . Ryzyko spotęguje wewnętrzne zamieszanie w wiodących laboratoriach branżowych.
Debata została wzmocniona przez ubiegłoroczną rezygnację Jana Leike’a, byłego współpracy zespołu bezpieczeństwa Openai. Publicznie stwierdził, że w firmie „Kultura bezpieczeństwa i procesy zabrały się na błyszczące produkty”, sentyment, który rezonował z wieloma krytykami, którzy uważają, że wyścig o zdolność wyprzedza dyscyplinę bezpieczeństwa.
Proponowane ramy Anthropica jest wyraźną próbą rozwiązania tego kryzysu zaufania. Naciskając na publiczną odpowiedzialność i standaryzację ujawnień bezpieczeństwa, firma stara się ustanowić nową linię odniesienia dla odpowiedzialnego rozwoju. Propozycja służy zarówno jako praktyczne narzędzie, jak i strategiczny ruch kształtujący przyszłość regulacji AI.