Google dąży do globalnej akcji w sprawie sztucznej inteligencji ogólnej (AGI), podkreślając pilność tworzenia zabezpieczeń, zanim systemy te wykraczają poza kontrolę człowieka. W wpisie na blogu opublikowanym wczoraj przez DeepMind firma ujawniła nowe międzynarodowe ramy bezpieczeństwa zbudowane wokół trzech kluczowych filarów: wzmocnienie badań technicznych, wdrażanie systemów wczesnego ostrzeżenia i wspieranie międzynarodowej współpracy poprzez organy zarządzania.
Zamiast koncentrować się wyłącznie na ramach polityki lub abstrakcyjnych etycznych rozważeniach, jest stanowczo zakorzenione w praktyce ewolucji AI. Firma podkreśla, że potrzeba środków bezpieczeństwa nie jest odległym problemem, ale bezpośrednim wyzwaniem. „[Kluczowym elementem naszej strategii jest identyfikacja i ograniczenie dostępu do niebezpiecznych możliwości, które mogą być niewłaściwie wykorzystywane, w tym te umożliwiające cyberataki.” Departament stwierdził w post
z narzędzi bezpieczeństwa do geopolitical do geopoliticals Traktaty
Poza innowacjami technicznymi DeepMind opowiada się za zmianami strukturalnymi obejmującymi glob. Firma sugeruje ustanowienie organu międzynarodowego, który oceniłby systemy AGI, podobnie jak umowy o nieproliferacji jądrowej. Organizacja ta pomogłaby zarządzać globalnym ryzykiem i ustanowić znormalizowane ramy dla rozwoju i testowania AGI.
Ponadto DeepMind proponuje tworzenie krajowych centrów oceny ryzyka, aby umożliwić krajom niezależną ocenę zagranicznych systemów AI i zapewnienie bezpieczeństwa.
Sugestie te pojawiają się wzdłuż wewnętrznej ograniczania wewnętrznego ograniczania głębinu Google. Na początku 2024 r. Firma utworzyła nową organizację bezpieczeństwa i wyrównania AI, łącząc kilka istniejących zespołów, jednocześnie wprowadzając nowe talenty koncentrujące się szczególnie na ryzyku AGI.
Podział ten doprowadzi do wysiłków DeepMind w celu opracowania rozwiązań technicznych i standardów bezpieczeństwa w miarę postępów w tej dziedzinie. Ten wewnętrzny nacisk opiera się na szerszym zaangażowaniu Google w zapewnienie odpowiedzialnego rozwoju AI.
W kwietniu 2023 r. Google Deepmind połączył swój zespół mózgu z DeepMind, tworząc zjednoczony jednostkę badawczą, której zadaniem jest rozwój zdolności AI i zapewnienie bezpieczeństwa tych osiągnięć. Połączenie utorowało drogę do rozwoju rodziny modelu Gemini, która odnotowała znaczące ulepszenia w najnowszym wydaniu Experimental Gemini 2.5 Pro-jego najnowszego multimodalnego modelu AI zdolnego do zaawansowanego rozumowania. Ten rozwój sygnalizuje rosnące możliwości DeepMind, a także jego skupienie na zapewnieniu, że takie potężne systemy są odpowiedzialne.
echa z rywali-a kilka sprzeczności
Wezwanie DeepMind do regulacji bezpieczeństwa nie istnieje w izolacji. Nadchodzi, gdy inne główne laboratoria AI zaczynają podejmować podobne kroki. Anthropic, jeden z najważniejszych konkurentów DeepMind, wydał podobne ostrzeżenie w listopadzie 2024 r., Wzywając organy regulacyjne do podjęcia szybkich działań w ciągu 18 miesięcy w celu zapobiegania rozwójowi AI.
Firma wprowadziła nowe wewnętrzne polityki, w tym „progi zdolności”, które automatycznie uruchamiają silniejsze bezpieczeństwo, ponieważ systemy AI. Antropic współpracuje również z krajową administracją bezpieczeństwa nuklearnego Departamentu Energii Stanów Zjednoczonych, prowadząc ćwiczenia w zespole czerwonym w celu przetestowania swoich modeli Claude w warunkach bezpieczeństwa. Inicjatywa ta podkreśla rosnące nacisk na bezpieczeństwo sztucznej inteligencji, szczególnie w kontekstach, w których sztuczna inteligencja może wpłynąć na bezpieczeństwo narodowe.
Meta, która od dawna oparta na rozwoju AI, ponownie ocenia jej podejście. W lutym 2025 r. Firma ogłosiła zmianę strategii sztucznej inteligencji z Frontier AI Framework, która dzieli modele na kategorie „wysokiego ryzyka” i „krytycznego ryzyka”. Meta wyjaśniła, że modele ryzyka krytycznego nie będą już publicznie wydane bez rygorystycznych zabezpieczeń.
Ta decyzja nastąpiła po niewłaściwym użyciu modeli LLAMA w generowaniu złośliwych skryptów i nieautoryzowanych chatbotów wojskowych. Meta podkreślił, że jego celem jest zminimalizowanie katastrofalnego ryzyka związanego z tymi modelami.
Podczas gdy ruchy te odzwierciedlają zmianę w kierunku ostrożności, wykazują również coraz bardziej złożony związek między rozwojem AI a jej potencjalnym niewłaściwym użyciem. Gdy więcej firm ponownie kalibruje swoje strategie, propozycja DeepMind wpisuje się w większy wzór ostrożności, ponieważ przemysł zmaga się z przyszłością AGI.
Budowanie narzędzi do przechowywania modelu
Podczas gdy większość rozmów wokół Centrów Bezpieczeństwa AI na temat rządzenia, inne firmy koncentrują się na rozwiązaniach technicznych. W lutym Anthropic uruchomił klasyfikator konstytucyjny, zewnętrzny system filtrowania zaprojektowany w celu zapobiegania podpowiedzi przeciwnika i szkodliwych wyników z jego modeli AI. Testy wykazały, że klasyfikator obniżył wskaźniki sukcesu jailbreak z 86% do zaledwie 4,4%.
Aby potwierdzić jego skuteczność, antropic przeprowadził publiczne wyzwanie oferujące 15 000 $ nagrody dla każdego, kto mógłby ominąć system. Żaden z uczestników nie udało się go całkowicie przełamać, podkreślając rosnące wyrafinowanie narzędzi zaprojektowanych do zawierania systemów AI.
Postawiając swoje zaangażowanie w bezpieczeństwo, antropic w marcu uruchomiło swoje ramy interpretacyjne, nazywając go „mikroskopem AI” jako narzędzie, które zapewnia wgląd w sposób, w jaki modele takie jak Claude podejmowało decyzje. Analizując aktywacje neuronowe, może prześledzić, w jaki sposób model przetwarza informacje i wykrywa potencjalnie szkodliwe zachowania.
Ta interpretacja jest niezbędna, twierdzi Deepmind, ponieważ może zapobiec niepożądanym wynikach, zanim się zamanifestują.
Wraz z tymi narzędziami, antropic stosuje swoje ramy Clio do śledzenia wzorców Zastosowania AI. Wprowadzony w grudniu 2024 r. CLIO analizuje miliony rozmów z Claude w celu wykrycia wzorców niewłaściwego użycia. System priorytetowo traktuje prywatność poprzez anonimizację rozmów przed ich przetworzeniem. To proaktywne podejście do monitorowania zachowań AI jest zgodne z naciskiem DeepMind na potrzebę ciągłego nadzoru bezpieczeństwa, ponieważ systemy AI stają się bardziej wyrafinowane.
Ustawy UE i wysiłki polityczne krajowe podchodzą
Propozycja Deepmind przybywa, gdy rządy na całym świecie zaczynają podejmować konkretne kroki do regulacji AI. Ustawa AI Unii Europejskiej, która weszła w życie 2 lutego, zakazuje niektórych systemów AI uznanych za „nie do przyjęcia ryzyka” i nakłada surowe wymagania dotyczące przejrzystości na osoby uważane za wysokiego ryzyka. Firmy takie jak Openai i Meta publicznie zobowiązały się do spełnienia tych wymagań, choć wiele jeszcze nie spełniło w pełni.
Wdrożenie UE Ustawa następuje po miesiącach debaty w branży na temat tego, jak najlepiej zrównoważyć innowacje z bezpieczeństwem. Komisja Europejska wskazała już, że niezgodność może spowodować wysokie grzywny-do 6% globalnych przychodów firmy za naruszenia.
W Stanach Zjednoczonych Biały Dom zaczął rozważyć niedawną propozycję Anthropica, która zachęca surowsze protokoły bezpieczeństwa i mechanizmy nadzoru dla modeli AGI. Jednak, jak donosi TechCrunch, antropic po cichu cofnął kilka zobowiązań bezpieczeństwa, które podjęto we wczesnych dniach administracji Biden, zadając pytania o spójność samozachowawczych działań branży. To tło przygotowuje scenę dla wezwania DeepMind do silniejszego zarządzania.
poręcze w spółce sprzętowej i branżowej
Dążenie do bezpieczeństwa sztucznej inteligencji nie ogranicza się do samego oprogramowania. Firmy sprzętowe odgrywają również rolę w budowaniu infrastruktury bezpieczeństwa AI. Na przykład Nvidia wprowadziła poręczy Nemo w styczniu 2025 r., Pakiet mikrousług zaprojektowany w celu zapewnienia zabezpieczeń w czasie rzeczywistym przed szkodliwymi zachowaniami AI. Narzędzia obejmują filtry bezpieczeństwa treści, wykrywanie jailbreak i kontrolę tematu, wszystkie zaprojektowane do współpracy z istniejącymi modelami, aby upewnić się, że pozostają one zgodne z protokołami bezpieczeństwa.
Narzędzia te są już wdrażane w sektorach, jak opieka zdrowotna, detaliczna i motoryzacyjna, oferując poziom nadzoru, które propozycje DeepMind. Kari Briski, wiceprezes ds. Modeli AI Enterprise AI w NVIDIA, zauważył, że systemy te pozwalają firmom „zabezpieczyć swoje modele przed szkodliwymi wynikami” przy jednoczesnym zachowaniu wydajności o niskiej opóźnieniu. Integrując te technologie, NVIDIA pozycjonuje się jako kluczowy gracz w przyszłym bezpieczeństwie AI.
Współpraca między firmami sprzętowymi i oprogramowania podkreśla zbiorową odpowiedzialność podzieloną w całej branży w celu rozwiązywania ryzyka AGI. Podczas gdy ramy DeepMind opowiada się za globalną strukturą zarządzania, jasne jest, że ścieżka do zabezpieczenia sztucznej inteligencji będzie wymagała skoordynowanych działań zarówno programistów, jak i dostawców sprzętu.