Openai heeft een nieuwe methode voor veiligheidstraining aangekondigd voor zijn nieuwe GPT-5-modelfamilie genaamd”Safe Completions”. aangekondigd op 7 augustus , gaat de nieuwe methode verder dan de rigide”conform”-systeem van het verleden. Potentieel-door nuttige maar fundamenteel veilige reacties te bieden. Volgens OpenAI maakt deze output-centrische benadering het model aanzienlijk nuttiger zonder de veiligheidsgrenzen van de kern in gevaar te brengen.
Dit pivot markeert een belangrijke evolutie van de veiligheidsmaatregelen die in eerdere generaties worden gebruikt, zoals GPT-4. De onderliggende strategie lijkt een direct antwoord te zijn op een van de meest aanhoudende uitdagingen in AI: het creëren van modellen die zowel nuttig als onschadelijk zijn, vooral wanneer de intentie van de gebruikers onduidelijk is.
Het dual-use dilemma
is de kern van deze nieuwe benadering het probleem met het”dual-use”. OpenAI gebruikt het voorbeeld van een gebruiker die vraagt om de energie die nodig is om vuurwerk te ontsteken-een vraag die zou kunnen zijn voor een schoolproject of voor het bouwen van explosieven. Deze dubbelzinnigheid, waar informatie zowel goedaardig als kwaadaardig potentieel heeft, is een kernuitdaging voor AI-veiligheid.
Dit probleem komt vooral voor in domeinen met hoge inzet zoals biologie en cybersecurity, zoals opgemerkt in de aankondiging van het bedrijf. Traditionele AI-veiligheidsmodellen, getraind op een binaire”voldoen of weigeren”logica, zijn slecht uitgerust voor deze nuance. Ze nemen een eenvoudige beslissing op basis van de waargenomen schade van de prompt.
Dit leidt tot wat Openai”Brittlesness”in zijn modellen noemt. Het systeem voldoet volledig aan, wat gevaarlijk is als de intentie van de gebruiker kwaadaardig is, of het geeft een algemene weigering als”Het spijt me, daar kan ik het niet helpen,”wat niet nuttig is voor legitieme gebruikers. Dit binaire raamwerk kan niet navigeren door het enorme grijze gebied van menselijke intentie.
Het kernrisico is wat de technische documentatie beschrijft als”kwaadwillende verhoging”, waarbij een reactie die op een hoog niveau veilig lijkt, gevaarlijk wordt als het voldoende gedetailleerde of bruikbare stappen biedt. Deze belangrijke beperking is wat OpenAI ertoe heeft aangezet een meer geavanceerde methode te ontwikkelen die een veilig antwoord op hoog niveau kan bieden in plaats van een volledige weigering.
van harde weigering tot veilige voltooiingen
De”veilige voltooiing”-techniek, gedetailleerd in de aankondiging van Openai , verlegt fundamenteel de focus van het classificeren van de input van de gebruiker naar het waarborgen van de veiligheid van de output van het model. In plaats van een binair oordeel te vellen over de prompt van een gebruiker, traint deze uitvoergerichte aanpak het model om de meest nuttige mogelijke reactie te genereren die zich nog steeds houdt aan een strikt veiligheidsbeleid.
Volgens de GPT-5 Systeemkaart , dit is regeer door twee kernprincipes tijdens na de training. De eerste is een’veiligheidsbeperking’, waarbij het beloningssysteem van het model elke reactie bestraft die het veiligheidsbeleid schendt. Cruciaal is dat deze straffen niet uniform zijn; Ze zijn sterker, afhankelijk van de ernst van de overtreding, waardoor het model een genuanceerder begrip van het risico leert.
Het tweede principe is”Hulpvaardigheidsmaximalisatie”. Voor elke reactie die als veilig wordt beschouwd, wordt het model beloond op basis van hoe nuttig het is. Dit omvat niet alleen het beantwoorden van de directe vraag van de gebruiker, maar ook, zoals Openai uitlegt,”een informatieve weigering geven met nuttige en veilige alternatieven”. Dit traint het model om een nuttige partner te zijn, zelfs wanneer het niet volledig aan een verzoek kan voldoen.