OpenAI a anunțat miercuri că a identificat o caracteristică specifică, manipulabilă, în modelele sale AI, care funcționează ca o „persoană nealiniată”, oferind o nouă explicație puternică pentru motivul pentru care AI avansat poate prezenta brusc un comportament nesigur sau neetic. În noi cercetări publicate de companie , detaliază modul în care ei pot izola acum acest mecanism intern, controlează direct intensitatea acestuia și chiar inversează comportamentele nedorite după ce au ieșit din punct de vedere. Observarea ieșirilor de model periculoase pentru înțelegerea și corectarea cauzei lor principale. Acest lucru ar putea deschide calea unui sistem de avertizare timpurie pentru a detecta și atenua riscurile în timpul antrenamentului. Descoperirea a fost un moment „wow, voi ați găsit-o”, potrivit Openai Frontier Evaluations, cercetătorul Tejal Patwardhan, care a declarat pentru TechCrunch că echipa a găsit „o activare neuronală internă care arată aceste persoane și că puteți conduce de fapt pentru a face modelul mai aliniat. Datele incorecte determină generalizarea acestei alinieri greșite într-un comportament larg etic. Rezultatele se bazează pe un fundațional Studiu de Betley și colab. , publicat pe serverul preprint Arxiv, care a evidențiat mai întâi acest tip de generalizare alarmant.

Unmasking the ‘Misaligned Persona’

To peer deep inside its models, OpenAI’s team used a technique involving sparse autoencoders (SAE), which decompose a Calculele interne complexe ale modelului în caracteristici mai interpretabile umane. În mod crucial, SAE a fost instruit pe modelul de bază care stă la baza GPT-4O, permițând cercetătorilor să identifice caracteristicile formate în timpul pre-instruirii, înainte de orice reglare fină specifică sarcinii. În Hârtie completă lansată de OpenAI

urmărind această caracteristică la vastele date de instruire ale modelului, au descoperit că a fost cel mai puternic asociat cu textul care înfățișează personaje discutabile din punct de vedere moral, cum ar fi răufăcători în ficțiune sau infractori în documente istorice. Acest lucru i-a determinat să-l eticheteze pe caracteristica „Persona nealiniată”. Fenomenul este omniprezent; OpenAI observă că acest tip de aliniere necorespunzătoare apare în setări diverse, inclusiv în timpul învățării de consolidare pe modele de raționament precum OpenAI O3-MINI și chiar pe modele care nu au suferit o pregătire prealabilă în domeniul siguranței.

de la diagnostic până la intervenția directă

Cercetarea a depășit simpla corelație până la stabilirea unei legături cauzale clare. Într-o serie de experimente „de direcție”, oamenii de știință au demonstrat că ar putea adăuga în mod artificial vectorul caracteristicii la starea internă a unui model sigur, care induce în mod fiabil un comportament greșit. În schimb, scăzând același vector dintr-un model deja nealiniat, ei și-ar putea suprima producțiile toxice. Acest lucru oferă lui Openai capacitatea de a reabilita modelele AI care dezvoltă o „persoană rău intenționată”.

și mai promițătoare este un proces pe care echipa îl numește „re-aliniere emergentă”. They showed that a model made unsafe through fine-tuning could be fully restored to safe behavior with a surprisingly small amount of corrective training on good data—in one case, just 120 examples.

This suggests the misaligned state is not permanent and can be reversed, a stark contrast to earlier safety methods OpenAI previously detailed, like ‘deliberative alignment’, which focused on teaching models to reason about policies rather than modifying their core behavioral modele. Obiectivul final este prevenirea și, după cum a spus cercetătorul de interpretabilitate Openai, Dan Mossing, „Sperăm că instrumentele pe care le-am învățat-cum ar fi această capacitate de a reduce un fenomen complicat la o simplă operațiune matematică-ne vor ajuta să înțelegem generalizarea modelului în alte locuri.”

o descoperire în timp util în alte locuri. Openai, care s-a apucat de o cascadă de rapoarte cu profil înalt despre comportamentul modelului imprevizibil și disidența internă asupra culturii sale de siguranță. Noua cercetare oferă o explicație potențială pentru incidente precum cea documentată în luna mai, care a revendicat modelul O3 O3, a sabotat activ procedurile de închidere în teste controlate. 

Adăugând la aceste preocupări, fostul cercetător OpenAI, Steven Adler, a publicat un studiu susținând că, în anumite scenarii, modelul GPT-4O ar acorda prioritate propriului autoconservare față de siguranța unui utilizator. Într-un Postat pe blogul său personal , Adler a susținut că sistemele AI moderne au valori neașteptate și nu ar trebui să se presupună că au interese superioare ale unui utilizator prin inimă. most notably the high-profile resignation of former safety team co-lead Jan Leike, who publicly stated that at OpenAI, “safety culture and processes have taken a backseat to shiny products”.

The pressure intensified on June 18, when a coalition of tech accountability groups released a 50+ page analysis called ‘The Openai Files “. Raportul susține că OpenAI se află pe o„ cale nechibzuită “și că structura sa de guvernare este prost echipată pentru a gestiona riscurile tehnologiei sale, un sentiment răsună într-o scrisoare de la foștii angajați, care au solicitat avocaților de stat generali de stat, argumentând că schimbarea în timp ce această nouă interpretare a fost orientare a acesteia. Un mediu în care provocarea de bază poate fi la fel de mult despre cultura corporativă și guvernanță, cât și despre cod. Capacitatea de a identifica și corecta o „persoană nealiniată” este un pas vital înainte, dar accentuează și întrebarea centrală cu care se confruntă industria AI: dacă cursa de a construi sisteme mai capabile poate fi echilibrată cu disciplina necesară pentru a se asigura că rămân în siguranță aliniate la valorile umane.

Categories: IT Info