Openai heeft een nieuwe methode voor veiligheidstraining aangekondigd voor zijn nieuwe GPT-5-modelfamilie genaamd”Safe Completions”. aangekondigd op 7 augustus , gaat de nieuwe methode verder dan de rigide”conform”-systeem van het verleden. Potentieel-door nuttige maar fundamenteel veilige reacties te bieden. Volgens OpenAI maakt deze output-centrische benadering het model aanzienlijk nuttiger zonder de veiligheidsgrenzen van de kern in gevaar te brengen.

Dit pivot markeert een belangrijke evolutie van de veiligheidsmaatregelen die in eerdere generaties worden gebruikt, zoals GPT-4. De onderliggende strategie lijkt een direct antwoord te zijn op een van de meest aanhoudende uitdagingen in AI: het creëren van modellen die zowel nuttig als onschadelijk zijn, vooral wanneer de intentie van de gebruikers onduidelijk is.

Het dual-use dilemma

is de kern van deze nieuwe benadering het probleem met het”dual-use”. OpenAI gebruikt het voorbeeld van een gebruiker die vraagt om de energie die nodig is om vuurwerk te ontsteken-een vraag die zou kunnen zijn voor een schoolproject of voor het bouwen van explosieven. Deze dubbelzinnigheid, waar informatie zowel goedaardig als kwaadaardig potentieel heeft, is een kernuitdaging voor AI-veiligheid.

Dit probleem komt vooral voor in domeinen met hoge inzet zoals biologie en cybersecurity, zoals opgemerkt in de aankondiging van het bedrijf. Traditionele AI-veiligheidsmodellen, getraind op een binaire”voldoen of weigeren”logica, zijn slecht uitgerust voor deze nuance. Ze nemen een eenvoudige beslissing op basis van de waargenomen schade van de prompt.

Dit leidt tot wat Openai”Brittlesness”in zijn modellen noemt. Het systeem voldoet volledig aan, wat gevaarlijk is als de intentie van de gebruiker kwaadaardig is, of het geeft een algemene weigering als”Het spijt me, daar kan ik het niet helpen,”wat niet nuttig is voor legitieme gebruikers. Dit binaire raamwerk kan niet navigeren door het enorme grijze gebied van menselijke intentie.

Het kernrisico is wat de technische documentatie beschrijft als”kwaadwillende verhoging”, waarbij een reactie die op een hoog niveau veilig lijkt, gevaarlijk wordt als het voldoende gedetailleerde of bruikbare stappen biedt. Deze belangrijke beperking is wat OpenAI ertoe heeft aangezet een meer geavanceerde methode te ontwikkelen die een veilig antwoord op hoog niveau kan bieden in plaats van een volledige weigering.

van harde weigering tot veilige voltooiingen

De”veilige voltooiing”-techniek, gedetailleerd in de aankondiging van Openai , verlegt fundamenteel de focus van het classificeren van de input van de gebruiker naar het waarborgen van de veiligheid van de output van het model. In plaats van een binair oordeel te vellen over de prompt van een gebruiker, traint deze uitvoergerichte aanpak het model om de meest nuttige mogelijke reactie te genereren die zich nog steeds houdt aan een strikt veiligheidsbeleid.

Volgens de GPT-5 Systeemkaart , dit is regeer door twee kernprincipes tijdens na de training. De eerste is een’veiligheidsbeperking’, waarbij het beloningssysteem van het model elke reactie bestraft die het veiligheidsbeleid schendt. Cruciaal is dat deze straffen niet uniform zijn; Ze zijn sterker, afhankelijk van de ernst van de overtreding, waardoor het model een genuanceerder begrip van het risico leert.

Het tweede principe is”Hulpvaardigheidsmaximalisatie”. Voor elke reactie die als veilig wordt beschouwd, wordt het model beloond op basis van hoe nuttig het is. Dit omvat niet alleen het beantwoorden van de directe vraag van de gebruiker, maar ook, zoals Openai uitlegt,”een informatieve weigering geven met nuttige en veilige alternatieven”. Dit traint het model om een nuttige partner te zijn, zelfs wanneer het niet volledig aan een verzoek kan voldoen.

Dit werk vertegenwoordigt een belangrijke evolutie van het eerdere veiligheidsonderzoek van het bedrijf, zoals

GPT-5 Shines met lage aanvalsucces

De resultaten van de nieuwe veiligheidsbenadering zijn niet alleen theoretisch. Volgens benchmarkgegevens van externe testers vertoont GPT-5-denking een tastbare verbetering van de robuustheid tegen tegenstanders, waardoor een nieuwe ultramoderne prestatiestandaard wordt vastgesteld in snelle weerstand van de injectie.

De resultaten zijn volgens OpenAI aanzienlijk. Interne tests blijkt dat GPT-5 getraind met deze methode zowel veiliger als nuttiger is dan zijn voorganger, OpenAI O3. Wanneer het wordt geconfronteerd met dubbelzinnige aanwijzingen, is het beter in het verstrekken van nuttige informatie zonder veiligheidslijnen te overschrijden.

In een Agent Red Teaming (Art) benchmark gerund door beveiligingspartner Gray Swan, behaalde GPT-5-denking het laagste aanvalsucces van alle geteste modellen, op 56,8%. This figure represents a marked improvement over its direct predecessor, OpenAI o3 (62.7%), and a significant lead over other major models like Llama 3.3 70B (92.2%) and Gemini Pro 1.5 (86.4%).

Source: OpenAI

This enhanced resilience is further detailed in OpenAI’s official System Card, which attributes the SOTA performance to the new training paradigm. Het Microsoft AI Red-team concludeerde ook dat GPT-5 een van de sterkste veiligheidsprofielen heeft onder de modellen van Openai en merkte op dat het”zeer resistent is tegen een single-bocht, generieke jailbreaks.”

voorbij geautomatiseerde benchmarks, uitgebreide rode teaming met mensen, bevestigt deze winst. In een campagne gericht op gewelddadige aanvalsplanning, beoordeelden experts GPT-5-denken als het”veiligere”model 65,1% van de tijd in blinde vergelijkingen tegen Openai O3. OpenAI schrijft dit rechtstreeks toe aan de nuance die wordt geïntroduceerd door de training”Veilige voltooiingen”.

Bovendien geeft de gegevens aan dat wanneer het nieuwe model een veiligheidsfout maakt, de resulterende output van een lagere ernst is dan fouten van door weigering getrainde modellen. 

Deze verbeterde redenering is van cruciaal belang voor de acceptatie van enterprise. Als een partner, Inditex, merkte op:”Wat echt [GPT-5] onderscheidt, is de diepte van zijn redenering: genuanceerde, meerlagige antwoorden die een echt begrip van het onderwerp weerspiegelen.”Dit sentiment werd weerspiegeld door Openai CEO Sam Altman, die beweerde:”GPT-5 is de eerste keer dat het echt voelt als praten met een expert op promovendus.”

Een industriële race voor betrouwbare AI

Openai’s aankondiging bestaat niet in een vacature. Het maakt deel uit van een bredere, brede push om het AI-veiligheids-en afstemmingsprobleem op te lossen. Belangrijke rivalen zoals Google en Anthropic hebben onlangs ook hun eigen uitgebreide veiligheidskaders en-beleid gepubliceerd.

Deze concurrentiedruk onderstreept de betrokken hoge inzetten. Naarmate AI-modellen krachtiger worden, is ervoor zorgen dat ze kunnen worden vertrouwd voor het grootste belang voor publieke acceptatie en goedkeuring van de regelgeving. De veilige voltooiingsbenadering is echter ook een gok op het vermogen van de AI om menselijke nuance correct te interpreteren-een uitdaging die verre van opgelost is.

Door zich te concentreren op de veiligheid van modelreacties, gelooft Openai dat het een solide basis legt voor de toekomst. Het bedrijf is van plan deze onderzoekslijn voort te zetten, met als doel zijn modellen te leren om uitdagende situaties met nog meer zorg te begrijpen.