OpenAI a anunțat miercuri că a identificat o caracteristică specifică, manipulabilă, în modelele sale AI, care funcționează ca o „persoană nealiniată”, oferind o nouă explicație puternică pentru motivul pentru care AI avansat poate prezenta brusc un comportament nesigur sau neetic. În noi cercetări publicate de companie , detaliază modul în care ei pot izola acum acest mecanism intern, controlează direct intensitatea acestuia și chiar inversează comportamentele nedorite după ce au ieșit din punct de vedere. Observarea ieșirilor de model periculoase pentru înțelegerea și corectarea cauzei lor principale. Acest lucru ar putea deschide calea unui sistem de avertizare timpurie pentru a detecta și atenua riscurile în timpul antrenamentului. Descoperirea a fost un moment „wow, voi ați găsit-o”, potrivit Openai Frontier Evaluations, cercetătorul Tejal Patwardhan, care a declarat pentru TechCrunch că echipa a găsit „o activare neuronală internă care arată aceste persoane și că puteți conduce de fapt pentru a face modelul mai aliniat. Datele incorecte determină generalizarea acestei alinieri greșite într-un comportament larg etic. Rezultatele se bazează pe un fundațional Studiu de Betley și colab. , publicat pe serverul preprint Arxiv, care a evidențiat mai întâi acest tip de generalizare alarmant.
Unmasking the ‘Misaligned Persona’
To peer deep inside its models, OpenAI’s team used a technique involving sparse autoencoders (SAE), which decompose a Calculele interne complexe ale modelului în caracteristici mai interpretabile umane. În mod crucial, SAE a fost instruit pe modelul de bază care stă la baza GPT-4O, permițând cercetătorilor să identifice caracteristicile formate în timpul pre-instruirii, înainte de orice reglare fină specifică sarcinii. În Hârtie completă lansată de OpenAI
urmărind această caracteristică la vastele date de instruire ale modelului, au descoperit că a fost cel mai puternic asociat cu textul care înfățișează personaje discutabile din punct de vedere moral, cum ar fi răufăcători în ficțiune sau infractori în documente istorice. Acest lucru i-a determinat să-l eticheteze pe caracteristica „Persona nealiniată”. Fenomenul este omniprezent; OpenAI observă că acest tip de aliniere necorespunzătoare apare în setări diverse, inclusiv în timpul învățării de consolidare pe modele de raționament precum OpenAI O3-MINI și chiar pe modele care nu au suferit o pregătire prealabilă în domeniul siguranței.
de la diagnostic până la intervenția directă
Cercetarea a depășit simpla corelație până la stabilirea unei legături cauzale clare. Într-o serie de experimente „de direcție”, oamenii de știință au demonstrat că ar putea adăuga în mod artificial vectorul caracteristicii la starea internă a unui model sigur, care induce în mod fiabil un comportament greșit. În schimb, scăzând același vector dintr-un model deja nealiniat, ei și-ar putea suprima producțiile toxice. Acest lucru oferă lui Openai capacitatea de a reabilita modelele AI care dezvoltă o „persoană rău intenționată”.
și mai promițătoare este un proces pe care echipa îl numește „re-aliniere emergentă”. They showed that a model made unsafe through fine-tuning could be fully restored to safe behavior with a surprisingly small amount of corrective training on good data—in one case, just 120 examples.
This suggests the misaligned state is not permanent and can be reversed, a stark contrast to earlier safety methods OpenAI previously detailed, like ‘deliberative alignment’, which focused on teaching models to reason about policies rather than modifying their core behavioral modele. Obiectivul final este prevenirea și, după cum a spus cercetătorul de interpretabilitate Openai, Dan Mossing, „Sperăm că instrumentele pe care le-am învățat-cum ar fi această capacitate de a reduce un fenomen complicat la o simplă operațiune matematică-ne vor ajuta să înțelegem generalizarea modelului în alte locuri.”