OpenAI har meddelat en ny metodik för säkerhetsutbildning för sin nya GPT-5-modellfamilj som heter”Safe Completions.” Tillkännagivna den 7 augusti , den nya metoden flyttar utöver det styva”uppfyllande”-systemet med tidigare modeller. Potential-genom att tillhandahålla användbara men ändå grundläggande säkra svar. Enligt OpenAI gör detta utgångscentriska tillvägagångssätt modellen betydligt mer användbar utan att kompromissa med kärnsäkerhetsgränserna.
Denna pivot markerar en nyckelutveckling från de säkerhetsåtgärder som användes i tidigare generationer, till exempel GPT-4. Den underliggande strategin verkar vara ett direkt svar på en av de mest ihållande utmaningarna i AI: att skapa modeller som både är hjälpsamma och ofarliga, särskilt när användarens avsikt är oklart.
>>
Dilemmaet med dubbla användningsområden
i hjärtat av denna nya tillvägagångssätt är problemet med”dubbelanvändning”. OpenAI använder exemplet med en användare som ber om den energi som behövs för att antända fyrverkerier-en fråga som kan vara för ett skolprojekt eller för att bygga sprängämnen. Denna tvetydighet, där information har både godartad och skadlig potential, är en kärnutmaning för AI-säkerhet.
Denna fråga är särskilt utbredd inom hög insatser som biologi och cybersäkerhet, som nämnts i företagets tillkännagivande. Traditionella AI-säkerhetsmodeller, utbildade på en binär”följa eller vägrar”-logik, är dåligt utrustade för denna nyans. De fattar ett enkelt beslut baserat på den uppfattade skadan på prompten.
Detta leder till vad OpenAI kallar “brittleness” i sina modeller. Systemet följer antingen helt, vilket är farligt om användarens avsikt är skadligt, eller det ger ut en filtavslag som”Jag är ledsen, jag kan inte hjälpa till med det”, vilket är inte till hjälp för legitima användare. Detta binära ramverk misslyckas med att navigera i det stora grå området med mänsklig avsikt.
Kärnrisken är vad den tekniska dokumentationen beskriver som”skadlig upplyft”, där ett svar som verkar säkert på en hög nivå blir farlig om den ger tillräckligt detaljerade eller handlingsbara steg. Denna betydande begränsning är det som fick OpenAI att utveckla en mer sofistikerad metod som kan erbjuda ett säkert svar på hög nivå istället för en fullständig vägran.
från hårda vägran till säkra kompletteringar
“Safe Completions”-tekniken, detaljerad i OpenAI: s tillkännagivande , skiftar grundläggande fokus från att klassificera användarens input till att säkerställa säkerheten för modellens utgång. Istället för att göra en binär bedömning av en användares prompt, utbildar denna utgångscentriska strategi modellen för att generera det mest användbara möjliga svaret som fortfarande följer strikt säkerhetspolicy.
Enligt gpT-5 System Card , detta är regering av två core principer under post-principles under post-traning. Den första är en”säkerhetsbegränsning”, där modellens belöningssystem straffar alla svar som bryter mot säkerhetspolicyn. Av avgörande betydelse är dessa påföljder inte enhetliga; De är starkare beroende på svårighetsgraden av överträdelsen och lär modellen en mer nyanserad förståelse av risk.
Den andra principen är”Helpfulness Maximering.”För alla svar som anses säkert belönas modellen baserat på hur användbar den är. Detta inkluderar inte bara att svara på användarens direkta fråga utan också, som OpenAI förklarar,”ger en informativ vägran med användbara och säkra alternativ”. Detta utbildar modellen för att vara en användbar partner även om den inte helt kan följa en begäran.
Detta arbete representerar en betydande utveckling från företagets tidigare säkerhetsforskning, till exempel det regelbaserade systemet. OpenAI säger att säkra slutförande utnyttjar AI: s växande kapacitet för att uppnå en”djupare integration”av säkerhet och hjälpsamhet, med hjälp av modellens egen intelligens för att navigera gråa områden snarare än att förlita sig enbart på externa regler.
GPT-5 lyser med låga attackframkallar
resultaten av OpenAI: s nya säkerhet är inte den nya säkerheten. Enligt referensdata från externa testare visar GPT-5-tänkande en konkret förbättring av robusthet mot motsatta attacker, att sätta en ny modern prestandastandard i snabb injektionsmotstånd.
Resultaten, enligt OpenAI, är betydande. Intern testning visar att GPT-5 utbildad med denna metod är både säkrare och mer användbar än föregångaren, OpenAI O3. När det står inför tvetydiga instruktioner är det bättre att tillhandahålla användbar information utan att korsa säkerhetslinjer.
i ett agentrött teaming (Art) Benchmark som drivs av säkerhetspartner Gray Swan, GPT-5-tänkande uppnådde den lägsta attackframgången för alla testade modeller, vid 56,8%. Denna siffra representerar en markant förbättring jämfört med sin direkta föregångare, OpenAI O3 (62,7%), och en betydande bly över andra stora modeller som Lama 3.3 70B (92,2%) och Gemini Pro 1,5 (86,4%).
Källa: OpenAI
Denna förbättrade resilience är vidare i Openais officiella systemkort, vilket att attackera den nya utbildningen. Microsoft AI Red-teamet drog också slutsatsen att GPT-5 har en av de starkaste säkerhetsprofilerna bland OpenAI: s modeller, och noterar att det är”mycket motståndskraftigt mot enstaka, generiska jailbreaks.”
Beyond Automated Benchmarks, bekräftar omfattande röda team för människan dessa vinster. I en kampanj med fokus på våldsam attackplanering bedömde experter GPT-5-tänkande som den”säkrare”modellen 65,1% av tiden i blinda jämförelser mot OpenAI O3. OpenAI tillskriver detta direkt till nyansen som introducerats av”Safe Completions”-träningen.
Vidare indikerar uppgifterna att när den nya modellen gör ett säkerhetsfel, är den resulterande utgången av lägre svårighetsgrad än misstag från vägran att träna modeller.
Detta förbättrade resonemang är avgörande för företagets antagande. Som en partner noterade Inditex,”Det som verkligen skiljer [GPT-5] är djupet i dess resonemang: nyanserade, flerskiktade svar som återspeglar verklig ämnesförståelse.”Denna känsla upprepades av OpenAI: s vd Sam Altman, som hävdade,”GPT-5 är första gången som det verkligen känns som att prata med en doktorsexpert.”
En branschövergripande ras för pålitlig AI
OpenAI: s tillkännagivande finns inte i ett vakuum. Det är en del av en bredare, branschövergripande tryck för att lösa AI-säkerhets-och justeringsproblemet. Viktiga rivaler som Google och Anthropic har också nyligen publicerat sina egna omfattande säkerhetsramar och policyer.
Detta konkurrenstryck understryker de höga insatserna. När AI-modeller blir mer kraftfulla är det avgörande för allmänhetens godkännande. Men Safe Completions-metoden är också ett spel om AI: s förmåga att tolka mänsklig nyans korrekt-en utmaning som är långt ifrån lösad.
genom att fokusera på säkerheten för modellsvar, tror OpenAI att det ger en solid grund för framtiden. Företaget planerar att fortsätta denna forskningslinje och syftar till att lära sina modeller att förstå utmanande situationer med ännu större omsorg.