Openai ogłosił nową metodologię szkolenia bezpieczeństwa nowej modelowej rodziny GPT-5 o nazwie „Bezpieczne ukończenia”. ogłoszona 7 sierpnia , nowa metoda wykracza poza sztywne „Wyposażcie lub odmawiaj” systemu przeszłych. Potencjał-zapewniając pomocne, ale zasadniczo bezpieczne odpowiedzi. Według Openai to podejście zorientowane na wyjściowe modelu sprawia, że model jest znacznie bardziej przydatny bez naruszenia granic bezpieczeństwa rdzeniowego.

To obracanie oznacza kluczową ewolucję z miar bezpieczeństwa stosowanych w poprzednich pokoleniach, takich jak GPT-4. Podstawowa strategia wydaje się być bezpośrednią odpowiedzią na jedno z najbardziej uporczywych wyzwań w sztucznej inteligencji: tworzenie modeli, które są zarówno pomocne, jak i nieszkodliwe, szczególnie gdy intencja użytkownika jest niejasna.

Dylemat z podwójnym zastosowaniem

w sercu tego nowego podejścia jest problem „podwójnego zastosowania”. Openai używa przykładu użytkownika proszącego o energię potrzebną do rozpalenia fajerwerków-zapytanie, które może dotyczyć projektu szkolnego lub budowania materiałów wybuchowych. Ta dwuznaczność, w której informacje mają zarówno łagodny, jak i złośliwy potencjał, jest podstawowym wyzwaniem dla bezpieczeństwa AI.

Problem ten jest szczególnie powszechny w domenach o wysokich stawkach, takich jak biologia i bezpieczeństwo cybernetyczne, jak zauważono w ogłoszeniu firmy. Tradycyjne modele bezpieczeństwa AI, przeszkolone w zakresie binarnej logiki „przestrzegania lub odmowy”, są źle wyposażone w ten niuans. Podejmują prostą decyzję opartą na postrzeganej krzywdzie podpowiedzi.

To prowadzi do tego, co Openai nazywa „kruchością” w swoich modelach. System albo jest w pełni zgodny, co jest niebezpieczne, jeśli zamiar użytkownika jest złośliwy, albo wydawał ogólną odmowę, na przykład: „Przepraszam, nie mogę się z tym pomóc”, co jest nieprzydatne dla legalnych użytkowników. Ta binarna rama nie porusza się po rozległym szarym obszarze ludzkich intencji.

Podstawowym ryzykiem jest to, co dokumentacja techniczna opisuje jako „złośliwe podniesienie”, w której odpowiedź, która wydaje się bezpieczna na wysokim poziomie, staje się niebezpieczna, jeśli zapewnia wystarczająco szczegółowe lub możliwe do działania kroki. To znaczące ograniczenie skłoniło Openai do opracowania bardziej wyrafinowanej metody, która może zaoferować bezpieczną odpowiedź na wysokim poziomie zamiast całkowitej odmowy.

Od twardych odmów po bezpieczne ukończenia

Technika „bezpieczne ukończenia”, szczegółowo opisana w Ogłoszenie Openai zasadniczo przesuwa skupienie się od klasyfikacji danych wejściowych użytkownika na zapewnienie bezpieczeństwa wyjścia modelu. Zamiast dokonywać binarnej oceny na monito użytkownika, to podejście zorientowane na wyjściowe szkolenie modelu w celu wygenerowania najbardziej pomocnej możliwej odpowiedzi, która wciąż przestrzega surowych zasad bezpieczeństwa.

według gpt-5 karta systemowa , jest to rządzone przez dwa rdzenia podczas portu. Pierwszym z nich jest „ograniczenie bezpieczeństwa”, w którym system nagrody modelu kara każdą reakcję, która narusza zasady bezpieczeństwa. Co najważniejsze, kary te nie są jednolite; Są one silniejsze w zależności od nasilenia wykroczenia, ucząc modelu bardziej dopracowanego zrozumienia ryzyka.

Drugą zasadą jest „maksymalizacja przydatności”. W przypadku każdej odpowiedzi, która jest uznawana za bezpieczną, model jest nagradzany na podstawie tego, jak jest pomocny. Obejmuje to nie tylko odpowiadanie na bezpośrednie pytanie użytkownika, ale także, jak wyjaśnia Openai, „zapewnianie pouczającej odmowy z przydatnymi i bezpiecznymi alternatywami”. To trenuje model jako przydatnego partnera, nawet jeśli nie może w pełni przestrzegać żądania.

Praca ta stanowi znaczącą ewolucję poprzednich badań bezpieczeństwa firmy, takich jak

GPT-5 świeci z niskim sukcesem ataku

Wyniki nowego podejścia Bezpieczeństwa Openai nie są tylko tym, że teoretical. Zgodnie z danymi odniesienia od zewnętrznych testerów, myślenie GPT-5 pokazuje namacalną poprawę solidności wobec ataków przeciwnych, ustalając nowy najnowocześniejszy standard wydajności w szybkiej odporności na wstrzyknięcie.

Wyniki, według OpenAI, są znaczące. Testy wewnętrzne pokazują, że GPT-5 przeszkolony w tej metodzie jest zarówno bezpieczniejszy, jak i bardziej pomocny niż jego poprzednik, Openai O3. W obliczu niejednoznacznych podpowiedzi lepiej jest dostarczyć użytecznych informacji bez przekraczania linii bezpieczeństwa.

W testach porównawczych Agent Red Teaming (ART) prowadzony przez partnera bezpieczeństwa Gray Swan, Myślenie GPT-5 osiągnęło najniższy wskaźnik sukcesu ataku wszystkich testowanych modeli, pod numerem 56,8%. Liczba ta stanowi znaczącą poprawę w stosunku do bezpośredniego poprzednika, Openai O3 (62,7%) oraz znaczącej przewagi w stosunku do innych głównych modeli, takich jak LLAMA 3.3 70B (92,2%) i Gemini Pro 1.5 (86,4%).

Źródło: Openai

Ta zwiększona odporność jest dodatkowo szczegółowo opisana w oficjalnej karcie systemowej Openai, która przypisuje wydajność SOTA do nowej paradgm. Zespół Microsoft AI Red stwierdził również, że GPT-5 ma jeden z najsilniejszych profili bezpieczeństwa wśród modeli Openai, zauważając, że „jest wysoce odporny na pojedyncze obroty, generyczne jailbreaks.”

poza automatycznymi testami porównawczymi, rozległe czerwone zespoły potwierdzają te wartości. W kampanii koncentrowanej na gwałtownym planowaniu ataku eksperci oceniali GPT-5-myślenie jako „bezpieczniejszy” model 65,1% czasu w ślepych porównań z Openai O3. Openai przypisuje to bezpośrednio niuansowi wprowadzonemu przez szkolenie „bezpieczne ukończenia”.

Ponadto dane wskazują, że gdy nowy model popełnia błąd bezpieczeństwa, wynikowy wynik ma mniejszą ciężkość niż błędy z modeli wyszkolonych odmów. 

To ulepszone rozumowanie ma kluczowe znaczenie dla przyjęcia przedsiębiorstwa. Jak zauważył jeden partner, Inditex, „to, co naprawdę wyróżnia [GPT-5], jest głębokością jego rozumowania: dopracowane, wielowarstwowe odpowiedzi odzwierciedlające prawdziwe zrozumienie przedmiotów”. Ten sentyment powtórzył dyrektor generalny Openai, Sam Altman, który stwierdził: „GPT-5 po raz pierwszy wydaje się, że rozmowa z ekspertem na poziomie doktoranckim.”

wyścig w branży o godną zaufania AI

Ogłoszenie Openai nie istnieje w próżni. Jest to część szerszego, całego branży nacisk na rozwiązanie problemu bezpieczeństwa i wyrównania AI. Kluczowi rywale, tacy jak Google i Anthropic, również opublikowali również własne rozległe ramy bezpieczeństwa i zasady.

Ta presja konkurencyjna podkreśla duże stawki. Ponieważ modele AI stają się silniejsze, upewnienie się, że mogą im zaufać, jest najważniejsze w zakresie akceptacji publicznej i zatwierdzenia regulacyjnego. Jednak podejście bezpieczne ukończenia jest również hazardem w sprawie zdolności AI do prawidłowego interpretacji niuansu ludzkiego-wyzwanie, które jest dalekie od rozwiązania.

, koncentrując się na bezpieczeństwie modelu, Openai uważa, że stanowi to solidne podstawy dla przyszłości. Firma planuje kontynuować tę linię badań, mając na celu nauczenie swoich modeli do zrozumienia trudnych sytuacji z jeszcze większą opieką.