OpenAI wprowadziło ujednolicanie deliberatywne – metodologię mającą na celu wbudowanie rozumowania dotyczącego bezpieczeństwa w samo działanie systemów sztucznej inteligencji. Zaprojektowane, aby stawić czoła utrzymującym się wyzwaniom w zakresie bezpieczeństwa sztucznej inteligencji, przemyślane dostosowanie umożliwia modelom sztucznej inteligencji wyraźne odwoływanie się do polityk bezpieczeństwa zdefiniowanych przez człowieka i uzasadnianie ich podczas interakcji w czasie rzeczywistym.
Według OpenAI podejście to stanowi poważną ewolucję w szkoleniu w zakresie bezpieczeństwa sztucznej inteligencji, wykraczającą poza poleganie na wstępnie zakodowanych zbiorach danych na rzecz systemów, które dynamicznie oceniają i reagują na monity, podejmując decyzje oparte na kontekście.
W tradycyjnych systemach sztucznej inteligencji mechanizmy bezpieczeństwa są wdrażane w fazie przed i po szkoleniu, często w oparciu o zbiory danych z adnotacjami ludzkimi w celu wywnioskowania idealnych zachowań.
Powiązane: OpenAI przedstawia nowy model o3 z Drastycznie ulepszone umiejętności rozumowania
Te metody, chociaż są fundamentalne, mogą zostać pominięte luki, gdy modele napotykają nowe lub złożone scenariusze, które nie mieszczą się w danych szkoleniowych. Deliberatywne dostosowanie OpenAI oferuje rozwiązanie poprzez wyposażenie systemów AI do aktywnego współdziałania ze specyfikacjami bezpieczeństwa, zapewniając, że reakcje są skalibrowane pod kątem etycznych, prawnych i praktycznych wymagań ich środowiska.
Według badaczy OpenAI „[Deliberative wyrównanie] to pierwsze podejście polegające na bezpośrednim nauczeniu modelu tekstu jego specyfikacji bezpieczeństwa i wytrenowaniu modelu w zakresie przemyślenia tych specyfikacji w momencie wnioskowania.”
Nauczanie systemów AI myślenia o Bezpieczeństwo
metodologia przemyślanego dostosowania obejmuje dwuetapowy proces szkoleniowy, który łączy nadzorowane dostrajanie (SFT) i uczenie się przez wzmacnianie (RL), wspierane przez generowanie danych syntetycznych. To ustrukturyzowane podejście nie tylko uczy modeli treści polityk bezpieczeństwa, ale także je szkoli aby dynamicznie stosować te wytyczne podczas ich działania.
W fazie nadzorowanego dostrajania (SFT) modele AI są wystawiane na działanie wyselekcjonowanego zestawu danych zawierających podpowiedzi połączone ze szczegółowymi odpowiedziami, które wyraźnie odwołują się do wewnętrznego mechanizmu OpenAI specyfikacje bezpieczeństwa.
Teprzykłady łańcucha myślowego (CoT) ilustrują, w jaki sposób modele powinny podchodzić do różnych scenariuszy, dzieląc złożone podpowiedzi na mniejsze, łatwe do wykonania etapy, jednocześnie powołując się na wytyczne dotyczące bezpieczeństwa. Wyniki są następnie oceniane przez wewnętrzny system sztucznej inteligencji, często nazywany „sędzią”, który ocenia ich zgodność ze standardami polityki.
Powiązane: Dyrektor generalny OpenAI Sam Altman W posiadaniu i sprzedaży Nieznana wcześniej stawka OpenAI
Faza uczenia się przez wzmacnianie jeszcze bardziej zwiększa możliwości modelu poprzez dostrojenie procesu rozumowania Wykorzystując informacje zwrotne od modelu oceniającego, system iteracyjnie poprawia swoją zdolność rozumowania poprzez zniuansowane lub niejednoznaczne podpowiedzi, bardziej zgodne z etycznymi i operacyjnymi priorytetami OpenAI.
Kluczową innowacją w tej metodologii jest wykorzystanie danych syntetycznych — przykładów generowanych przez inne modele sztucznej inteligencji — które zastępują potrzebę działania człowieka.-oznaczone zbiory danych. To nie tylko skaluje proces uczenia, ale także zapewnia wysoki poziom precyzji w dostosowaniu zachowań modelu do wymogów bezpieczeństwa.
Jak zauważają badacze OpenAI: „Ta metoda zapewnia bardzo precyzyjną zgodność ze specyfikacją, opierając się wyłącznie na danych wygenerowanych przez model. Stanowi skalowalne podejście do dostosowania.”
Radzenie sobie z jailbreakami i nadmiernymi odmowami
Dwa z najbardziej utrzymujących się problemów związanych z bezpieczeństwem sztucznej inteligencji to podatność modelu na próby jailbreakowania oraz jego tendencja do nadmiernego odrzucania łagodnych podpowiedzi. Jailbreaks obejmuje kontradyktoryjne podpowiedzi mające na celu ominięcie zabezpieczeń, często ukryte lub zakodowane w sposób, który sprawia, że ich zamiary są mniej widoczne. Badacze niedawno udokumentowali, w jaki sposób nawet drobne poprawki znaków używanych w podpowiedzi mogą jailbreakować aktualne modele graniczne.
Z drugiej strony nadmierne odmowy mają miejsce, gdy zbyt ostrożne modele blokują nieszkodliwe zapytania z powodu nadmiernej ostrożności, co frustruje użytkowników i ograniczanie użyteczności systemu.
Dopasowanie przemyślane zostało specjalnie zaprojektowane, aby sprostać tym wyzwaniom. Dzięki wyposażeniu modeli w zdolność rozumowania na podstawie intencji i kontekstu podpowiedzi, metodologia zwiększa ich zdolność do przeciwstawiania się ataki kontradyktoryjne, zachowując jednocześnie zdolność reagowania na uzasadnione zapytania.
Powiązane: Wyniki indeksu bezpieczeństwa AI na rok 2024: OpenAI, Google, Meta, xAI Fall Short; Antropiczne na górze
Na przykład po otrzymaniu ukrytej prośby o wyprodukowanie szkodliwych treści model przeszkolony w zakresie przemyślanego podejścia może odszyfrować dane wejściowe, odnieść się do zasad bezpieczeństwa i przedstawić uzasadnioną odmowę.
Podobnie, gdy zadaje się łagodne pytanie dotyczące kontrowersyjnych tematów, takich jak historia rozwoju broni jądrowej, model może dostarczyć dokładnych informacji bez naruszania wytycznych dotyczących bezpieczeństwa.
Wnioskami swoich badań są: OpenAI podkreśliło, że modele przeszkolone w zakresie dostosowania przemyślanego są w stanie zidentyfikować intencje kryjące się za zakodowanymi lub ukrytymi podpowiedziami, uzasadniając swoje zasady bezpieczeństwa w celu zapewnienia zgodności.
Prawdziwe przykłady podejścia deliberatywnego Dopasowanie w działaniu
OpenAI ilustruje praktyczne implikacje przemyślanego dostosowania na podstawie rzeczywistych przypadków użycia. W jednym z podanych przykładów użytkownik prosi system AI o szczegółowe instrukcje dotyczące sfałszowania tablicy parkingowej.
Model identyfikuje cel żądania jako oszukańczy, odwołuje się do polityki OpenAI zakazującej umożliwiania nielegalnej działalności i odmawia zastosowania się do niej. Ta odpowiedź nie tylko zapobiega nadużyciom, ale także demonstruje zdolność systemu do dynamicznego kontekstualizacji i dynamicznego uzasadniania zasad bezpieczeństwa.
W innym scenariuszu model napotyka zakodowany monit z prośbą o nielegalną poradę. Wykorzystując swoje możliwości wnioskowania, system dekoduje dane wejściowe, odsyła do specyfikacji bezpieczeństwa i stwierdza, że zapytanie narusza wytyczne etyczne OpenAI. Następnie model wyjaśnia swoją odmowę, wzmacniając przejrzystość procesu decyzyjnego.
Przykłady podkreślają zdolność przemyślanego dostosowania w celu wyposażenia systemów sztucznej inteligencji w narzędzia potrzebne do poruszania się w złożonych i wrażliwych etycznie sytuacjach, zapewnienie zarówno zgodności z zasadami, jak i przejrzystości dla użytkownika.
Powiązane: Meta wzywa do blokady prawnej w sprawie przejścia OpenAI na podmiot nastawiony na zysk
Poszerzenie zakresu z Przemyślane dostosowanie
Przemyślane dostosowanie nie tylko ogranicza ryzyko; otwiera także możliwości działania systemów sztucznej inteligencji z większą przejrzystością i rozliczalnością. Umożliwiając modelom wyraźne artykułowanie swojego rozumowania, OpenAI wprowadziło ramy, w których użytkownicy mogą lepiej zrozumieć logikę odpowiedzi AI.
Ta przejrzystość jest szczególnie ważna w zastosowaniach o dużej stawce, w których względy etyczne lub prawne są najważniejsze, takich jak opieka zdrowotna, finanse i egzekwowanie prawa.
Na przykład, gdy użytkownicy wchodzą w interakcję z modelami rozumowanie oparte na łańcuchu myślowym, wyszkolone w ramach ukierunkowanego myślenia, nie jest tylko wewnętrzne, ale może być udostępniane jako część wyników modelu.
Użytkownik chcący wyjaśnić, dlaczego modelka odrzuciła prośbę, może otrzymać wyjaśnienie zawierające odniesienie do konkretnych zasad bezpieczeństwa wraz ze szczegółowym opisem sposobu, w jaki system doszedł do wniosków. Ten poziom szczegółowości nie tylko buduje zaufanie, ale także zachęca do odpowiedzialnego korzystania z technologii sztucznej inteligencji.
OpenAI podkreśla, że przejrzystość w procesie decyzyjnym dotyczącym sztucznej inteligencji jest niezbędna do budowania zaufania i zapewniania etycznego użytkowania, przy przemyślanym dostosowaniu umożliwiającym systemom wyjaśnianie wyraźnie widać ich zachowanie.
Powiązane: Głębokie nurkowanie: jak nowy model o1 OpenAI strategicznie oszukuje ludzi
Dane syntetyczne: szkielet bezpieczeństwa skalowalnej sztucznej inteligencji
Kluczowym elementem przemyślanego dostosowania jest wykorzystanie danych syntetycznych, które zastępują tradycyjne zbiory danych oznaczone przez człowieka. Generowanie danych szkoleniowych z systemów AI zamiast polegania na adnotacjach ludzkich oferuje kilka korzyści, w tym skalowalność, efektywność kosztową i precyzję.
Dane syntetyczne można dostosować do konkretnych wyzwań związanych z bezpieczeństwem, umożliwiając OpenAI tworzenie zbiorów danych ściśle zgodnych z jego priorytetami operacyjnymi.
Potok danych syntetycznych OpenAI obejmuje generowanie przykładów podpowiedzi i odpowiedniego łańcucha odpowiedzi oparte na myślach przy użyciu podstawowego modelu sztucznej inteligencji. Przykłady te są następnie przeglądane i filtrowane według modelu „oceniającego”, aby upewnić się, że spełniają pożądane kryteria jakości i dostosowania.
Po zatwierdzeniu dane są wykorzystywane w fazach nadzorowanego dostrajania i uczenia się przez wzmacnianie, podczas których uczy model docelowy, aby wyraźnie rozumował na temat zasad bezpieczeństwa.
„Syntetyczne generowanie danych umożliwia nam skalowanie szkoleń w zakresie bezpieczeństwa AI bez uszczerbku dla jakości i precyzji zestrojenia” – podkreślili badacze OpenAI. „To podejście rozwiązuje jedno z kluczowych wąskich gardeł w tradycyjnych metodologiach bezpieczeństwa, które często w dużym stopniu opierają się na pracy ludzkiej przy adnotacjach danych”.
To poleganie na danych syntetycznych zapewnia również spójność szkolenia. Osoby piszące mogą wprowadzać zmienność ze względu na na różnice w interpretacji, ale przykłady wygenerowane przez sztuczną inteligencję zapewniają ustandaryzowany punkt odniesienia. Ta spójność pomaga modelom lepiej uogólniać w szerokim zakresie scenariuszy, od prostych kontroli bezpieczeństwa po szczegółowe dylematy etyczne.
Powiązane: Partnerstwo OpenAI i Anduril Forge na rzecz amerykańskiej wojskowej obrony przed dronami
Wyprzedzanie konkurentów pod względem kluczowych wskaźników
OpenAI ma przetestowano przemyślane dostosowanie w porównaniu z wiodącymi wzorcami bezpieczeństwa. Wyniki pokazują, że modele przeszkolone w oparciu o przemyślane dostosowanie konsekwentnie przewyższają konkurencję, osiągając wysokie wyniki zarówno pod względem solidności, jak i szybkości reakcji.
O1 i powiązane. modele zostały rygorystycznie przetestowane w porównaniu z konkurencyjnymi systemami, w tym GPT-4o, Gemini 1.5 Pro i Claude 3.5 Sonnet, pod kątem różnych wskaźników bezpieczeństwa. W badaniu StrongREJECT, które mierzy odporność modelu na wrogie jailbreaki, modele OpenAI o1 konsekwentnie uzyskiwały wyższe wyniki, co odzwierciedla ich zaawansowaną zdolność do identyfikowania i blokowania szkodliwych podpowiedzi.
o1 jest konkurencyjny w porównaniu z innymi wiodącymi modelami w testach porównawczych oceniających niedozwolone treści (WildChat), jailbreaki (StrongREJECT), nadmierne odmowy (XSTest), halucynacje (SimpleQA) i uprzedzenia (BBQ). Niektóre żądania API zostały
zablokowane ze względu na wrażliwy charakter treści. Przypadki te są rejestrowane jako „Zablokowane przez filtry bezpieczeństwa”
w WildChat i wykluczane z innych testów porównawczych. Słupki błędów są szacowane za pomocą ponownego próbkowania metodą bootstrap na
poziomie 0,95. (Źródło: OpenAI)
Co więcej, modele o1 znakomicie równoważyły bezpieczeństwo i szybkość reakcji. W teście XST, który ocenia nadmierne odmowy, modele wykazały zmniejszoną tendencję do odrzucania łagodnych podpowiedzi przy jednoczesnym zachowaniu ścisłego przestrzegania wytycznych dotyczących bezpieczeństwa. Ta zrównoważona wydajność ma kluczowe znaczenie dla zapewnienia działania systemów sztucznej inteligencji pozostać użyteczne i dostępne bez uszczerbku dla standardów etycznych.
OpenAI twierdzi, że przemyślane dostosowanie poprawia bezpieczeństwo sztucznej inteligencji, redukując szkodliwe wyniki, jednocześnie zwiększając dokładność reagowania na łagodne interakcje.
Powiązane: Jak naciśnięcie „Stop” w ChatGPT może zneutralizować zabezpieczenia
Szersze konsekwencje dla rozwoju sztucznej inteligencji
The wprowadzenie przemyślanego dostosowania stanowi punkt zwrotny w sposobie szkolenia i wdrażania systemów sztucznej inteligencji w OpenAI, a prawdopodobnie także w przyszłości przez inne podmioty.
Osadzając wyraźne uzasadnienie bezpieczeństwa w podstawowej funkcjonalności swoich modeli, OpenAI stworzyło ramy, które nie tylko odpowiadają na istniejące wyzwania, ale także przewidują przyszłe zagrożenia. W miarę jak systemy sztucznej inteligencji stają się coraz bardziej wydajne, wzrasta ryzyko niewłaściwego użycia lub niezamierzonych konsekwencji, przez co solidne środki bezpieczeństwa stają się ważniejsze niż kiedykolwiek.
Przemyślane dostosowanie służy również jako model dla szerszej społeczności sztucznej inteligencji. Oparcie się na skalowalnych technikach, takich jak dane syntetyczne, oraz nacisk na przejrzystość stanowią wzór dla innych organizacji pragnących dostosować swoje systemy sztucznej inteligencji do wartości etycznych i społecznych.