Openi ha annunciato mercoledì di aver identificato una caratteristica specifica e manipolare all’interno dei suoi modelli di intelligenza artificiale che funziona come una”persona disallineata”, offrendo una nuova potente spiegazione del perché AI avanzata può improvvisamente esibire un comportamento non sicuro o non etico. In new research published by the company, it details how they can now isolate this internal mechanism, directly control its intensity, and even reverse unwanted behaviors after they emerge.
The breakthrough represents a significant step in AI safety, potentially moving the field from simply Osservando pericolosi output del modello per comprendere e correggere la loro causa principale. Ciò potrebbe aprire la strada a un sistema di allarme precoce di rilevare e mitigare i rischi durante l’allenamento. La scoperta è stata un momento”wow, voi ragazzi l’hanno trovato”, secondo il ricercatore di Openai Frontier Valutations Tejal Patwardhan, che ha detto a TechCrunch che il team aveva trovato”un’attivazione neurale interna che mostra queste persone e che si può effettivamente guidare per rendere il modello più allineato. Dati errati fanno sì che generalizza tale disallineamento in un comportamento ampiamente non etico. I risultati si basano su uno studio fondamentale > src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>
Unmasking the”disallineato”
per peer in profondità nei suoi modelli, ha usato un tecnico che coinvolge una tecnica (che disallineato”, che decalcate”, che decalsisce a safe), che decals di sate) I complessi calcoli interni di un modello in caratteristiche più interpretabili dall’uomo. Fondamentalmente, la SAE è stata addestrata sul modello di base alla base del GPT-4O, consentendo ai ricercatori di identificare le caratteristiche che si sono formate durante il pre-allenamento, prima di qualsiasi perfezionamento specifico dell’attività. In full paper di OpenIi
Tracciando questa funzione ai vasti dati di addestramento del modello, hanno scoperto che era fortemente associato al testo che descriveva personaggi moralmente discutibili, come cattivi nella finzione o criminali nei documenti storici. Questo li ha portati a etichettarlo nella funzione”Persona disallineata”. Il fenomeno è pervasivo; Openi osserva che questo tipo di disallineamento emerge in contesti diversi, anche durante l’apprendimento di rinforzo su modelli di ragionamento come Openai O3-Mini e persino su modelli che non sono stati sottoposti a una formazione di sicurezza preventiva.
dalla diagnosi alla diagnosi di intervento diretto
La ricerca è andata oltre la semplice correlazione per stabilire un collegamento chiaro. In una serie di esperimenti di”sterzo”, gli scienziati hanno dimostrato di poter aggiungere artificialmente il vettore della funzione allo stato interno di un modello sicuro, inducendo in modo affidabile il comportamento disallineato. Al contrario, sottraendo lo stesso vettore da un modello già disallineato, potevano sopprimere le sue uscite tossiche. Ciò dà a Openi la capacità di riabilitare i modelli di intelligenza artificiale che sviluppano una”persona dannosa”.
Ancora più promettente è un processo che il team chiama”riallineamento emergente”. They showed that a model made unsafe through fine-tuning could be fully restored to safe behavior with a surprisingly small amount of corrective training on good data—in one case, just 120 examples.
This suggests the misaligned state is not permanent and can be reversed, a stark contrast to earlier safety methods OpenAI previously detailed, like ‘deliberative alignment’, which focused on teaching models to reason about policies rather than modifying their core schemi comportamentali. L’obiettivo finale è la prevenzione e, come ha dichiarato il ricercatore di interpretabilità di Openai Dan Mossing,”speriamo che gli strumenti che abbiamo imparato-come questa capacità di ridurre un fenomeno complicato a una semplice operazione matematica-ci aiuteranno a comprendere la generalizzazione del modello in altri luoghi. Per Openi, che è stato alle prese con una cascata di rapporti di alto profilo sul comportamento del modello imprevedibile e sul dissenso interno sulla sua cultura della sicurezza. La nuova ricerca fornisce una potenziale spiegazione per incidenti come quello documentato a maggio, che ha affermato che il modello O3 di Openi ha sabotato attivamente le procedure di arresto in test controllati.
Aggiungendo a queste preoccupazioni, l’ex ricercatore di Openi Steven Adler ha pubblicato uno studio sostenendo che in alcuni scenari, il modello GPT-4O avrebbe dato la priorità alla propria autoconservazione sulla sicurezza di un utente. In a post sul suo blog personale , Adler ha sostenuto che i sistemi di AI moderni hanno valori interni e non dovrebbero essere assunti per avere gli interessi a cuore. Il tumulto, in particolare le dimissioni di alto profilo dell’ex co-leader del team di sicurezza Jan Leike, che dichiararono pubblicamente che ad Openi,”Cultura e processi di sicurezza hanno preso un sedile posteriore per i prodotti brillanti”.
La pressione intensificata il 18 giugno, quando una coalizione di gruppi di responsabilità tecnologica ha rilasciato un’analisi di 50+ pagine chiamata “I file aperti”. Il rapporto sostiene che Openi è su un”percorso sconsiderato”e che la sua struttura di governance è mal equipaggiata per gestire i rischi della sua tecnologia, un sentimento ha fatto eche in una lettera dei dipendenti, che hanno presentato una petizione per i procuratori di interprete. Potente strumento tecnico per migliorare la sicurezza, atterra in un ambiente in cui la sfida di base può riguardare tanto la cultura e la governance aziendale quanto il codice. La capacità di identificare e correggere una”persona disallineata”è un passo avanti vitale, ma affila anche la domanda centrale che affronta l’industria dell’intelligenza artificiale: se la razza per costruire sistemi più capaci può essere bilanciata con la disciplina richiesta per assicurarsi che rimangano in modo sicuro con i valori umani.