Openai ogłosił nową metodologię szkolenia bezpieczeństwa nowej modelowej rodziny GPT-5 o nazwie „Bezpieczne ukończenia”. ogłoszona 7 sierpnia , nowa metoda wykracza poza sztywne „Wyposażcie lub odmawiaj” systemu przeszłych. Potencjał-zapewniając pomocne, ale zasadniczo bezpieczne odpowiedzi. Według Openai to podejście zorientowane na wyjściowe modelu sprawia, że model jest znacznie bardziej przydatny bez naruszenia granic bezpieczeństwa rdzeniowego.
To obracanie oznacza kluczową ewolucję z miar bezpieczeństwa stosowanych w poprzednich pokoleniach, takich jak GPT-4. Podstawowa strategia wydaje się być bezpośrednią odpowiedzią na jedno z najbardziej uporczywych wyzwań w sztucznej inteligencji: tworzenie modeli, które są zarówno pomocne, jak i nieszkodliwe, szczególnie gdy intencja użytkownika jest niejasna.
Dylemat z podwójnym zastosowaniem
w sercu tego nowego podejścia jest problem „podwójnego zastosowania”. Openai używa przykładu użytkownika proszącego o energię potrzebną do rozpalenia fajerwerków-zapytanie, które może dotyczyć projektu szkolnego lub budowania materiałów wybuchowych. Ta dwuznaczność, w której informacje mają zarówno łagodny, jak i złośliwy potencjał, jest podstawowym wyzwaniem dla bezpieczeństwa AI.
Problem ten jest szczególnie powszechny w domenach o wysokich stawkach, takich jak biologia i bezpieczeństwo cybernetyczne, jak zauważono w ogłoszeniu firmy. Tradycyjne modele bezpieczeństwa AI, przeszkolone w zakresie binarnej logiki „przestrzegania lub odmowy”, są źle wyposażone w ten niuans. Podejmują prostą decyzję opartą na postrzeganej krzywdzie podpowiedzi.
To prowadzi do tego, co Openai nazywa „kruchością” w swoich modelach. System albo jest w pełni zgodny, co jest niebezpieczne, jeśli zamiar użytkownika jest złośliwy, albo wydawał ogólną odmowę, na przykład: „Przepraszam, nie mogę się z tym pomóc”, co jest nieprzydatne dla legalnych użytkowników. Ta binarna rama nie porusza się po rozległym szarym obszarze ludzkich intencji.
Podstawowym ryzykiem jest to, co dokumentacja techniczna opisuje jako „złośliwe podniesienie”, w której odpowiedź, która wydaje się bezpieczna na wysokim poziomie, staje się niebezpieczna, jeśli zapewnia wystarczająco szczegółowe lub możliwe do działania kroki. To znaczące ograniczenie skłoniło Openai do opracowania bardziej wyrafinowanej metody, która może zaoferować bezpieczną odpowiedź na wysokim poziomie zamiast całkowitej odmowy.
Od twardych odmów po bezpieczne ukończenia
Technika „bezpieczne ukończenia”, szczegółowo opisana w Ogłoszenie Openai zasadniczo przesuwa skupienie się od klasyfikacji danych wejściowych użytkownika na zapewnienie bezpieczeństwa wyjścia modelu. Zamiast dokonywać binarnej oceny na monito użytkownika, to podejście zorientowane na wyjściowe szkolenie modelu w celu wygenerowania najbardziej pomocnej możliwej odpowiedzi, która wciąż przestrzega surowych zasad bezpieczeństwa.
według gpt-5 karta systemowa , jest to rządzone przez dwa rdzenia podczas portu. Pierwszym z nich jest „ograniczenie bezpieczeństwa”, w którym system nagrody modelu kara każdą reakcję, która narusza zasady bezpieczeństwa. Co najważniejsze, kary te nie są jednolite; Są one silniejsze w zależności od nasilenia wykroczenia, ucząc modelu bardziej dopracowanego zrozumienia ryzyka.
Drugą zasadą jest „maksymalizacja przydatności”. W przypadku każdej odpowiedzi, która jest uznawana za bezpieczną, model jest nagradzany na podstawie tego, jak jest pomocny. Obejmuje to nie tylko odpowiadanie na bezpośrednie pytanie użytkownika, ale także, jak wyjaśnia Openai, „zapewnianie pouczającej odmowy z przydatnymi i bezpiecznymi alternatywami”. To trenuje model jako przydatnego partnera, nawet jeśli nie może w pełni przestrzegać żądania.