Openai on ilmoittanut uuden turvallisuuskoulutusmenetelmän uudelle GPT-5-malliperheelleen nimeltään “Safe Complections”. ilmoitettu 7. elokuuta , uusi menetelmä liikkuu jäykän”noudattavan”tai kieltäytyvän”-järjestelmän”järjestelmää

tenifisesti junat GPT-5: n merkitsemättömyyden ja vaarojen ja vaaroittumisen ja vaaroittumisen kanssa. Tarjoaa hyödyllisiä, mutta pohjimmiltaan turvallisia vastauksia. OpenAI: n mukaan tämä lähtökeskeinen lähestymistapa tekee mallista huomattavasti hyödyllisemmän vaarantamatta ydinturvallisuusrajoja.

Tämä nivel merkitsee avainkehitystä aikaisempien sukupolvien, kuten GPT-4: n, kuten GPT-4, turvallisuustoimenpiteistä. Taustalla oleva strategia näyttää olevan suora vastaus yhteen AI: n jatkuvimmista haasteista: malleja, jotka ovat sekä hyödyllisiä että vaarattomia, etenkin kun käyttäjän tarkoitus on epäselvä.

kaksikäyttöinen dilemma

Tämän uuden lähestymistavan ytimessä on “kaksikäyttö”-ongelma. Openai käyttää esimerkkiä siitä, että käyttäjä vaatii ilotulitteiden sytyttämiseen tarvittavaa energiaa-kysely, joka voi olla kouluprojektille tai räjähteiden rakentamiselle. Tämä epäselvyys, jossa tiedoilla on sekä hyvänlaatuista että haitallista potentiaalia, on keskeinen haaste AI-turvallisuudelle.

Tämä kysymys on erityisen yleinen korkean panoksen aloilla, kuten biologia ja kyberturvallisuus, kuten yrityksen ilmoituksessa todetaan. Perinteiset AI-turvallisuusmallit, jotka on koulutettu binaariseen “noudattamalla tai kieltäytymään”logiikkaan, ovat huonosti varustettuja tämän vivahteen. He tekevät yksinkertaisen päätöksen, joka perustuu kehotuksen havaittuun haittaan. Järjestelmä joko täydentää täysin, mikä on vaarallista, jos käyttäjän tarkoitus on haitallinen, tai se antaa huovan kieltäytymisen, kuten”Olen pahoillani, en voi auttaa siinä”, mikä ei ole oikeutettuja käyttäjiä. Tämä binaarikehys ei navigoida ihmisen aikomuksen valtavassa harmaassa alueella. Tämä merkittävä rajoitus kehotti Openaiä kehittämään hienostuneemman menetelmän, joka voi tarjota turvallisen, korkean tason vastauksen täydellisen kieltäytymisen sijasta.

kovista kieltäytymisistä turvallisiin loppuun saattamiseen

“Turvalliset täydennys”-tekniikat, yksityiskohtaisesti Openain ilmoitus siirtää keskittymisen pohjimmiltaan käyttäjän panoksen luokittelusta mallin tuotoksen turvallisuuden varmistamiseen. Sen sijaan, että tehtiin binaarinen tuomio käyttäjän kehotuksesta, tämä lähtökeskeinen lähestymistapa kouluttaa mallin tuottamaan hyödyllisimmän mahdollisen vastauksen, joka edelleen noudattaa tiukkoja turvallisuuskäytäntöjä.

GPT-5 System-kortti , tämä on kahden ydinperiaatteen perusteella. Ensimmäinen on”turvallisuusrajoitus”, jossa mallin palkitsemisjärjestelmä rankaisee vastausta, joka rikkoo turvallisuuspolitiikkaa. Tärkeää on, että nämä rangaistukset eivät ole yhtenäisiä; Ne ovat vahvempia rikkomuksen vakavuudesta riippuen, mallin opettaminen vivahteellisemmin riskistä.

Toinen periaate on “avuliaisuuden maksimointi”. Kaikille vastauksille, joita pidetään turvallisina, malli palkitaan sen perusteella, kuinka hyödyllinen se on. Tähän sisältyy paitsi käyttäjän suoran kysymyksen vastaaminen, myös, kuten Openai selittää,”informatiivisen kieltäytymisen tarjoaminen hyödyllisillä ja turvallisilla vaihtoehdoilla”. Tämä kouluttaa mallin hyödylliseksi kumppaniksi, vaikka se ei voi täysin noudattaa pyyntöä.

Tämä työ edustaa merkittävää kehitystä yrityksen aiemmasta turvallisuustutkimuksesta, kuten Sääntöpohjainen palkkiojärjestelmä. Openai sanoo, että turvalliset täydentämiset hyödyntävät AI: n kasvavia kykyjä saavuttaa turvallisuuden ja avuliaisuuden syvempi integraatio”käyttämällä mallin omaa älykkyyttä navigoidakseen harmaita alueita sen sijaan, että luottaisi yksinomaan ulkoisiin sääntöihin. Ulkoisten testaajien vertailuarvojen mukaan GPT-5-ajattelu osoittaa kestävyyden konkreettisen paranemisen kestävyydessä, asettamalla uuden huipputeknisen suoritusstandardin nopeaan injektiovastuskestävyyteen.

Openain mukaan tulokset ovat merkittäviä. Sisäinen testaus osoittaa, että tällä menetelmällä koulutettu GPT-5 on sekä turvallisempi että hyödyllisempi kuin edeltäjänsä Openai O3. Kun kohtaavat epäselviä kehotuksia, on parempi tarjota hyödyllistä tietoa ilman turvaviivojen ylittämistä. Tämä luku edustaa huomattavaa parannusta suoran edeltäjänsä, OpenAi O3: n (62,7%) ja merkittävän johdon verrattuna muihin tärkeimpiin malleihin, kuten LLAMA 3.3 70B (92,2%) ja Gemini Pro 1.5 (86,4%). Microsoft AI Red-joukkue päätteli myös, että GPT-5: llä on yksi Vahvimmista turvallisuusprofiileista Openain malleissa, ja huomauttaa, että se on “erittäin kestävä yksi käännös, yleiset jailbreak.”Väkivaltaiseen hyökkäyssuunnitteluun keskittyvässä kampanjassa asiantuntijat arvioivat GPT-5-ajattelevan “turvallisemmaksi”malliksi 65,1% ajasta sokeissa vertailuissa OpenAi O3: ta vastaan. Openai määrittelee tämän suoraan “turvallisten täydennyskoulutuksen” käyttöönotetulle vivahteelle.

Lisäksi tiedot osoittavat, että kun uusi malli tekee turvallisuusvirheen, tuloksena oleva lähtö on alhaisempi kuin hylkäämiskoulutusmallien virheet. 

Tämä parannettu päättely on kriittinen yrityksen käyttöönotolle. Yksi kumppani, Inditex, huomautti:”Se, mikä todella erottaa [GPT-5], on sen päättelyn syvyys: vivahteikkaat, monikerroksiset vastaukset, jotka heijastavat todellista aihe-ymmärrystä.”Tämän tunteen toisti Openain toimitusjohtaja Sam Altman, joka väitti: “GPT-5 on ensimmäinen kerta, kun tuntuu todella puhuvan tohtorin tason asiantuntijan kanssa.”

Alan laajuinen kilpailu luotettavan AI

Openain ilmoitus ei ole tyhjässä. Se on osa laajempaa, teollisuudenlaajuista pyrkimystä AI-turvallisuus-ja suuntausongelman ratkaisemiseksi. Tärkeimmät kilpailijat, kuten Google ja Antropic, ovat myös äskettäin julkistaneet omat laajat turvallisuuskehykset ja politiikat. Kun AI-mallit muuttuvat voimakkaammiksi, varmistaminen, että niihin voidaan luottaa, on ensiarvoisen tärkeää julkisen hyväksynnän ja sääntelyn hyväksynnän kannalta. Turvallinen täydennyslähestymistapa on kuitenkin myös uhkapeli AI: n kyvylle tulkita ihmisen vivahteita oikein-haaste, joka ei ole kaukana ratkaistu.

keskittymällä mallivasteiden turvallisuuteen, Openai uskoo, että se on tulevaisuuden perusta tulevaisuudelle. Yhtiö aikoo jatkaa tätä tutkimuslinjaa pyrkiessään opettamaan mallit ymmärtämään haastavia tilanteita vielä suuremmalla huolella.