Openai ha annunciato una nuova metodologia di formazione per la sicurezza per la sua nuova famiglia di modelli GPT-5 chiamata”Completamenti Safe”. ; Potenziale, fornendo risposte utili ma fondamentalmente sicure. Secondo Openi, questo approccio incentrato sull’output rende il modello significativamente più utile senza compromettere i confini della sicurezza del core.
Questo perno segna un’evoluzione chiave dalle misure di sicurezza utilizzate nelle generazioni precedenti, come GPT-4. La strategia sottostante sembra essere una risposta diretta a una delle sfide più persistenti dell’IA: creare modelli utili e innocui, specialmente quando l’intento dell’utente non è chiaro.
Il dilemma a doppio utilizzo
al centro di questo nuovo approccio è il problema del”doppio uso”. Openi usa l’esempio di un utente che chiede l’energia necessaria per accendere fuochi d’artificio, una query che potrebbe essere per un progetto scolastico o per la costruzione di esplosivi. Questa ambiguità, in cui le informazioni hanno un potenziale sia benigno che dannoso, è una sfida fondamentale per la sicurezza dell’IA.
Questo problema è particolarmente prevalente in settori ad alto contenuto di poste come la biologia e la sicurezza informatica, come notato nell’annuncio dell’azienda. I tradizionali modelli di sicurezza dell’intelligenza artificiale, addestrati su una logica binaria”conformi o rifiuta”, sono mal equipaggiati per questa sfumatura. Prendono una decisione semplice in base al danno percepito della prompt.
Questo porta a ciò che Openi chiama”fragilità”nei suoi modelli. Il sistema è completamente conforme, il che è pericoloso se l’intenzione dell’utente è dannoso o emette un rifiuto generale come”Mi dispiace, non posso fare a meno di questo”, il che non è utile per gli utenti legittimi. Questo framework binario non riesce a navigare nella vasta area grigia dell’intenzione umana.
Il rischio principale è ciò che la documentazione tecnica descrive come”sollevamento dannoso”, in cui una risposta che sembra sicura ad alto livello diventa pericolosa se fornisce passi sufficientemente dettagliati o attuabili. Questa limitazione significativa è ciò che ha spinto Openi a sviluppare un metodo più sofisticato che può offrire una risposta sicura e di alto livello invece di un completo rifiuto.
Dai rifiuti difficili a completamenti sicuri
La tecnica”Complezionali sicuri”, dettagliati in L’annuncio di Openi , sposta fondamentalmente l’attenzione dalla classificazione dell’input dell’utente alla garanzia della sicurezza dell’output del modello. Invece di emettere un giudizio binario sulla prompt di un utente, questo approccio incentrato su output forma il modello per generare la risposta più utile che aderisce ancora a rigide politiche di sicurezza. href=”https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf”target=”_ blank”> GPT-5 Sistema , questo è governato da due principi core durante il core-uging. Il primo è un”vincolo di sicurezza”, in cui il sistema di ricompensa del modello penalizza qualsiasi risposta che viola le politiche di sicurezza. Fondamentalmente, queste sanzioni non sono uniformi; Sono più forti a seconda della gravità dell’infrazione, insegnando al modello una comprensione più sfumata del rischio.
Il secondo principio è la”massimizzazione dell’utile”. Per qualsiasi risposta ritenuta sicura, il modello viene premiato in base a quanto sia utile. Ciò include non solo la risposta alla domanda diretta dell’utente, ma anche, come spiega Openai,”fornire un rifiuto informativo con alternative utili e sicure”. Questo addestra il modello per essere un partner utile anche quando non può soddisfare completamente una richiesta.