OpenAI a anunțat o nouă metodologie de formare a siguranței pentru noua sa familie model GPT-5, numită „Completări sigure”. anunțat pe 7 august , noua metodă se deplasează dincolo de rigidul „respectă sau refuza” sistemul de modele anterioare. oferind răspunsuri utile, dar fundamental sigure. Potrivit OpenAI, această abordare centrată pe ieșire face ca modelul să fie semnificativ mai util fără a compromite limitele de siguranță ale miezului.

Acest pivot marchează o evoluție cheie din măsurile de siguranță utilizate în generațiile anterioare, cum ar fi GPT-4. Strategia de bază pare a fi un răspuns direct la una dintre cele mai persistente provocări din AI: crearea de modele care sunt atât utile, cât și inofensive, mai ales atunci când intenția utilizatorului este neclară.

Dilema cu dublă utilizare

În centrul acestei noi abordări este problema „dublă utilizare”. OpenAI folosește exemplul unui utilizator care solicită energia necesară pentru a aprinde artificii-o întrebare care ar putea fi pentru un proiect școlar sau pentru construirea de explozibili. Această ambiguitate, în cazul în care informațiile au atât potențial benign, cât și rău intenționat, este o provocare de bază pentru siguranța AI.

Această problemă este predominantă în special în domeniile cu miză mare, cum ar fi Biologia și cibersecuritatea, așa cum s-a menționat în anunțul companiei. Modelele tradiționale de siguranță AI, instruite pe o logică binară „respectă sau refuză”, nu sunt echipate prost pentru această nuanță. Ei iau o decizie simplă pe baza prejudiciului perceput al promptului.

Acest lucru duce la ceea ce Openai numește „brittleness” în modelele sale. Sistemul se respectă pe deplin, ceea ce este periculos dacă intenția utilizatorului este rău intenționată, fie emite un refuz de pătură, cum ar fi „Îmi pare rău, nu pot să nu vă pot ajuta cu asta”, ceea ce este inutil pentru utilizatorii legitimi. Acest cadru binar nu reușește să navigheze pe vasta zonă cenușie a intenției umane.

Riscul de bază este ceea ce documentația tehnică descrie drept „ascensiune rău intenționată”, în cazul în care un răspuns care pare sigur la un nivel ridicat devine periculos dacă oferă pași suficient de detaliați sau acționabili. Această limitare semnificativă este ceea ce a determinat OpenAI să dezvolte o metodă mai sofisticată, care poate oferi un răspuns sigur, la nivel înalt, în loc de un refuz complet.

de la refuzurile grele la finalizări sigure

„finalizarea sigură”, tehnica, detaliată în Anunțul lui OpenAI , trece fundamental accentul de la clasificarea contribuției utilizatorului pentru a asigura siguranța producției modelului. În loc să facă o judecată binară cu privire la promptul utilizatorului, această abordare centrată pe ieșire antrenează modelul pentru a genera cel mai util posibil răspuns care respectă în continuare politici stricte de siguranță.

în conformitate cu GPT-5 System Card , aceasta este guvernată de două principiile de bază în timpul post-training. Primul este o „constrângere de siguranță”, în cazul în care sistemul de recompense al modelului penalizează orice răspuns care încalcă politicile de siguranță. În mod crucial, aceste sancțiuni nu sunt uniforme; Acestea sunt mai puternice în funcție de severitatea infracțiunii, învățând modelului o înțelegere mai nuanțată a riscului.

Al doilea principiu este „maximizarea utilă”. Pentru orice răspuns care este considerat în siguranță, modelul este răsplătit pe baza cât de util este. Aceasta include nu numai răspunsul la întrebarea directă a utilizatorului, ci și, după cum explică Openai, „furnizarea unui refuz informativ cu alternative utile și sigure”. Acest lucru antrenează modelul ca fiind un partener util chiar și atunci când nu se poate conforma pe deplin o solicitare.

Această lucrare reprezintă o evoluție semnificativă din cercetările anterioare de siguranță ale companiei, cum ar fi Sistemul de revizuire bazat pe reguli bazat pe GPT-4

GPT-5 strălucește cu ratele de succes ale atacului scăzut

Rezultatele noii abordări de siguranță a lui OpenAI nu sunt doar nul. Conform datelor de referință de la testeri externi, gândirea GPT-5 demonstrează o îmbunătățire tangibilă a robustetei împotriva atacurilor adversare, stabilind un nou standard de performanță de ultimă generație în rezistența promptă de injecție.

Rezultatele, potrivit Openai, sunt semnificative. Testele interne arată că GPT-5 instruit cu această metodă este atât mai sigur, cât și mai util decât predecesorul său, OpenAI O3. Atunci când se confruntă cu prompturi ambigue, este mai bine să furnizezi informații utile fără a traversa linii de siguranță.

într-un agent de referință de echipă Red Teaming (ART), condus de partenerul de securitate Gray Swan, gândirea GPT-5 a obținut cea mai mică rată de succes de atac a tuturor modelelor testate, la 56,8%. Această cifră reprezintă o îmbunătățire marcată față de predecesorul său direct, OpenAI O3 (62,7%) și un avans semnificativ asupra altor modele majore precum LLAMA 3.3 70B (92,2%) și Gemini Pro 1.5 (86,4%).

Sursa: OpenAI

Această rezistență îmbunătățită este detaliată în continuare în cardul de sistem oficial al sistemului Openai. Echipa Roșie Microsoft AI a concluzionat, de asemenea, că GPT-5 are unul dintre cele mai puternice profiluri de siguranță dintre modelele lui Openai, menționând că este „extrem de rezistent la jailbreak-uri generice. Într-o campanie axată pe planificarea atacurilor violente, experții au evaluat gândirea GPT-5 ca fiind modelul „mai sigur” 65,1% din timp în comparații oarbe împotriva Openai O3. OpenAI atribuie acest lucru direct nuanței introduse de instruirea „completărilor sigure”.

Mai mult, datele indică faptul că atunci când noul model face o eroare de siguranță, ieșirea rezultată este de severitate mai mică decât greșelile din modelele instruite cu refuzuri. 

Acest raționament îmbunătățit este esențial pentru adoptarea întreprinderilor. În calitate de partener, Inditex, a menționat, „Ceea ce diferențiază cu adevărat [GPT-5] este profunzimea raționamentului său: răspunsuri nuanțate, cu mai multe straturi, care reflectă o înțelegere reală a subiectului.” Acest sentiment a fost răsunat de CEO-ul OpenAI, Sam Altman, care a susținut: „GPT-5 este prima dată când se simte într-adevăr că vorbește cu un expert la nivel de doctorat. Face parte dintr-o apăsare mai largă, la nivelul întregii industrii, pentru a rezolva problema de siguranță și aliniere AI. Rivalii cheie precum Google și Anthropic și-au publicat recent propriile cadre și politici de siguranță extinse.

Această presiune competitivă subliniază mizele mari implicate. Pe măsură ce modelele AI devin mai puternice, asigurarea că pot fi de încredere este esențială pentru acceptarea publică și aprobarea de reglementare. Cu toate acestea, abordarea completărilor sigure este, de asemenea, un joc de joc asupra capacității AI de a interpreta corect nuanța umană-o provocare care este departe de a fi rezolvată.

, concentrându-se pe siguranța răspunsurilor modelului, Openai consideră că pune bazele solide pentru viitor. Compania intenționează să continue această linie de cercetare, urmărind să învețe modelele sale pentru a înțelege situații provocatoare cu o îngrijire și mai mare.