Openai ha annunciato una nuova metodologia di formazione per la sicurezza per la sua nuova famiglia di modelli GPT-5 chiamata”Completamenti Safe”. ; Potenziale, fornendo risposte utili ma fondamentalmente sicure. Secondo Openi, questo approccio incentrato sull’output rende il modello significativamente più utile senza compromettere i confini della sicurezza del core.

Questo perno segna un’evoluzione chiave dalle misure di sicurezza utilizzate nelle generazioni precedenti, come GPT-4. La strategia sottostante sembra essere una risposta diretta a una delle sfide più persistenti dell’IA: creare modelli utili e innocui, specialmente quando l’intento dell’utente non è chiaro.

Il dilemma a doppio utilizzo

al centro di questo nuovo approccio è il problema del”doppio uso”. Openi usa l’esempio di un utente che chiede l’energia necessaria per accendere fuochi d’artificio, una query che potrebbe essere per un progetto scolastico o per la costruzione di esplosivi. Questa ambiguità, in cui le informazioni hanno un potenziale sia benigno che dannoso, è una sfida fondamentale per la sicurezza dell’IA.

Questo problema è particolarmente prevalente in settori ad alto contenuto di poste come la biologia e la sicurezza informatica, come notato nell’annuncio dell’azienda. I tradizionali modelli di sicurezza dell’intelligenza artificiale, addestrati su una logica binaria”conformi o rifiuta”, sono mal equipaggiati per questa sfumatura. Prendono una decisione semplice in base al danno percepito della prompt.

Questo porta a ciò che Openi chiama”fragilità”nei suoi modelli. Il sistema è completamente conforme, il che è pericoloso se l’intenzione dell’utente è dannoso o emette un rifiuto generale come”Mi dispiace, non posso fare a meno di questo”, il che non è utile per gli utenti legittimi. Questo framework binario non riesce a navigare nella vasta area grigia dell’intenzione umana.

Il rischio principale è ciò che la documentazione tecnica descrive come”sollevamento dannoso”, in cui una risposta che sembra sicura ad alto livello diventa pericolosa se fornisce passi sufficientemente dettagliati o attuabili. Questa limitazione significativa è ciò che ha spinto Openi a sviluppare un metodo più sofisticato che può offrire una risposta sicura e di alto livello invece di un completo rifiuto.

Dai rifiuti difficili a completamenti sicuri

La tecnica”Complezionali sicuri”, dettagliati in L’annuncio di Openi , sposta fondamentalmente l’attenzione dalla classificazione dell’input dell’utente alla garanzia della sicurezza dell’output del modello. Invece di emettere un giudizio binario sulla prompt di un utente, questo approccio incentrato su output forma il modello per generare la risposta più utile che aderisce ancora a rigide politiche di sicurezza. href=”https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf”target=”_ blank”> GPT-5 Sistema , questo è governato da due principi core durante il core-uging. Il primo è un”vincolo di sicurezza”, in cui il sistema di ricompensa del modello penalizza qualsiasi risposta che viola le politiche di sicurezza. Fondamentalmente, queste sanzioni non sono uniformi; Sono più forti a seconda della gravità dell’infrazione, insegnando al modello una comprensione più sfumata del rischio.

Il secondo principio è la”massimizzazione dell’utile”. Per qualsiasi risposta ritenuta sicura, il modello viene premiato in base a quanto sia utile. Ciò include non solo la risposta alla domanda diretta dell’utente, ma anche, come spiega Openai,”fornire un rifiuto informativo con alternative utili e sicure”. Questo addestra il modello per essere un partner utile anche quando non può soddisfare completamente una richiesta.

Questo lavoro rappresenta una significativa evoluzione dalla precedente ricerca sulla sicurezza dell’azienda, come

GPT-5 brilla con bassi tassi di successo di attacco

I risultati di Open di OpenAI non sono solo teoreetici. Secondo i dati di riferimento di tester esterni, il pensiero GPT-5 dimostra un miglioramento tangibile della robustezza contro gli attacchi contraddittori, impostando un nuovo standard di prestazione all’avanguardia nella rapida resistenza all’iniezione.

I risultati, secondo Openi, sono significativi. I test interni mostrano che GPT-5 addestrato con questo metodo è sia più sicuro che più utile del suo predecessore, Openai O3. Di fronte a istruzioni ambigue, è meglio fornire informazioni utili senza attraversare le linee di sicurezza.

In un punto di riferimento di un agente di squadra (ART) gestito dal partner di sicurezza Gray Swan, il pensiero GPT-5 ha raggiunto il tasso di successo di attacco più basso di tutti i modelli testati, a 56,8%. Questa cifra rappresenta un netto miglioramento rispetto al suo predecessore diretto, Openai O3 (62,7%) e un vantaggio significativo su altri modelli principali come Llama 3.3 70b (92,2%) e Gemini Pro 1.5 (86,4%).

Fonte: OpenAi

Questa potenziata resilienza è ulteriormente dettagliata in Open System Sard, che attribuisce la performance di SOtA alla nuova formazione in formazione. Il team di Microsoft AI Red ha anche concluso che GPT-5 ha uno dei più forti profili di sicurezza tra i modelli di Openi, osservando che è”altamente resistente ai jailbreak generici a turno singolo.”

Oltre i benchmark automatizzati, un ampio teaming rosso guidato dall’uomo conferma questi guadagni. In una campagna focalizzata sulla pianificazione violenta degli attacchi, gli esperti hanno valutato GPT-5 come il modello”più sicuro”il 65,1% delle volte nei confronti ciechi contro OpenAI O3. Openi attribuisce questo direttamente alla sfumatura introdotta dall’addestramento”Completamenti sicuri”.

Inoltre, i dati indicano che quando il nuovo modello commette un errore di sicurezza, l’output risultante è di gravità inferiore rispetto agli errori da modelli addestrati al rifiuto. 

Questo ragionamento migliorato è fondamentale per l’adozione aziendale. Come ha osservato un partner, Inditex,”ciò che distingue veramente [GPT-5] è la profondità del suo ragionamento: risposte sfumate e a più livelli che riflettono la vera comprensione della materia”. Questo sentimento è stato ripreso dal CEO di Openi Sam Altman, che ha affermato:”GPT-5 è la prima volta che si sente davvero come parlare con un esperto di dottorato.”

Una corsa a livello di settore per AI affidabile

L’annuncio di Open non esiste in un vuoto. Fa parte di una spinta più ampia e a livello di settore per risolvere il problema della sicurezza e dell’allineamento dell’IA. I principali rivali come Google e Antropic hanno anche recentemente pubblicizzato i propri ampi quadri e politiche di sicurezza.

Questa pressione competitiva sottolinea le alte quote coinvolte. Man mano che i modelli di intelligenza artificiale diventano più potenti, garantire che si possano fidarsi è fondamentale per l’accettazione pubblica e l’approvazione normativa. Tuttavia, l’approccio di completamento sicuro è anche una scommessa sulla capacità dell’IA di interpretare correttamente la sfumatura umana: una sfida tutt’altro che risolta.

concentrandosi sulla sicurezza delle risposte del modello, Openii ritiene che stia preparando solide basi per il futuro. L’azienda prevede di continuare questa linea di ricerca, con l’obiettivo di insegnare ai suoi modelli a comprendere situazioni impegnative con cure ancora maggiori.