Openai har kunngjort en ny sikkerhetsopplæringsmetodikk for sin nye GPT-5-modellfamilie kalt”Safe Completions.” kunngjort 7. august , beveger den nye metoden seg utover det stive”Comply eller nektet”for å ha en sjøfarts-Ambright. ondsinnet potensial-ved å gi nyttige, men grunnleggende trygge svar. I følge Openai gjør denne utgangssentriske tilnærmingen modellen betydelig mer nyttig uten at det går ut over kjernesikkerhetsgrenser.
Denne pivoten markerer en nøkkelutvikling fra sikkerhetstiltakene som ble brukt i tidligere generasjoner, for eksempel GPT-4. Den underliggende strategien ser ut til å være en direkte respons på en av de mest vedvarende utfordringene i AI: å lage modeller som er både nyttige og ufarlige, spesielt når brukerens intensjon er uklar.
Dilemmaet med dobbeltbruk
Hjertet av denne nye tilnærmingen er det”dobbeltbruk”-problemet. Openai bruker eksemplet på en bruker som ber om energien som trengs for å tenne fyrverkeri-et spørsmål som kan være for et skoleprosjekt eller for å bygge eksplosiver. Denne tvetydigheten, der informasjon har både godartet og ondsinnet potensial, er en kjerneutfordring for AI-sikkerhet.
Dette problemet er spesielt utbredt i høye innsatser som biologi og cybersecurity, som nevnt i selskapets kunngjøring. Tradisjonelle AI-sikkerhetsmodeller, trent på en binær”overhold eller nekter”-logikk, er dårlig utstyrt for denne nyansen. De tar en enkel beslutning basert på den opplevde skaden av ledeteksten.
Dette fører til det Openai kaller”sprøhet”i modellene. Systemet samsvarer enten fullt ut, noe som er farlig hvis brukerens intensjon er ondsinnet, eller det utsteder et teppeavslag som”beklager, jeg kan ikke hjelpe med det,”som er lite nyttig for legitime brukere. Dette binære rammeverket klarer ikke å navigere i det enorme grå området med menneskelig intensjon.
Kjernerisikoen er hva den tekniske dokumentasjonen beskriver som”ondsinnet løft”, der et svar som virker trygt på et høyt nivå blir farlig hvis den gir tilstrekkelig detaljerte eller handlingsrike trinn. Denne betydelige begrensningen er det som fikk Openai til å utvikle en mer sofistikert metode som kan gi et trygt svar på høyt nivå i stedet for et fullstendig avslag.
fra harde avslag til sikker fullføringer Openais kunngjøring , forskyver grunnleggende fokuset fra å klassifisere brukerens innspill til å sikre sikkerheten i modellens utgang. I stedet for å gjøre en binær vurdering av en brukers ledetekst, trener denne output-sentriske tilnærmingen modellen for å generere den mest nyttige mulige responsen som fremdeles holder seg til strenge sikkerhetspolitikker.
I henhold til gpt-5-systemet dette er Governed=”_ blank”> gpt-5-system. Den første er en”sikkerhetsbegrensning”, der modellens belønningssystem straffer ethvert svar som bryter med sikkerhetspolicyer. Avgjørende er at disse straffene ikke er ensartede; De er sterkere avhengig av alvorlighetsgraden av overtredelsen, og lærer modellen en mer nyansert forståelse av risiko.
Det andre prinsippet er”hjelpsomhetsmaksimering.”For ethvert svar som anses som trygt, blir modellen belønnet basert på hvor nyttig den er. Dette inkluderer ikke bare å svare på brukerens direkte spørsmål, men også, som Openai forklarer,”å gi et informativt avslag med nyttige og trygge alternativer”. Dette trener modellen til å være en nyttig partner selv når den ikke fullt ut oppfyller en forespørsel.
Dette arbeidet representerer en betydelig utvikling fra selskapets tidligere sikkerhetsforskning, for eksempel