Ungrahing’Misaligned Persona, OpenIt TECH TECH (/H2>
å kikke dypt inne ( Nedbryter en modells komplekse interne beregninger til mer menneskelig tolkbare funksjoner. Avgjørende ble SAE trent på basismodellen som ligger til grunn for GPT-4O, slik at forskere kunne identifisere funksjoner som ble dannet under pre-trening, før noen oppgavespesifikk finjustering. I full papeet Released av Openai /pape)>
Ved å spore denne funksjonen tilbake til modellens enorme treningsdata, oppdaget de at den var sterkest assosiert med tekst som skildrer moralsk tvilsomme karakterer, for eksempel skurker i skjønnlitteratur eller kriminelle i historiske dokumenter. Dette førte dem til å merke den den”feiljusterte personaen”-funksjonen. Fenomenet er gjennomgripende; OpenAI notes that this type of misalignment emerges in diverse settings, including during reinforcement learning on reasoning models like OpenAI o3-mini and even on models that have not undergone prior safety training.
From Diagnosis to Direct Intervention
The research went beyond mere correlation to establish a clear causal link. I en serie med”styring”-eksperimenter demonstrerte forskere at de kunstig kunne legge til funksjonens vektor til en sikker modells interne tilstand, og pålitelig indusere feiljustert oppførsel. Motsatt, ved å trekke den samme vektoren fra en allerede feiljustert modell, kunne de undertrykke dens giftige utganger. Dette gir Openai muligheten til å rehabilitere AI-modeller som utvikler en ‘ondsinnet persona’.
Enda mer lovende er en prosess teamet kaller”fremvoksende omjustering.”De viste at en modell som ble gjort utrygg gjennom finjustering, kunne gjenopprettes til sikker oppførsel med en overraskende liten mengde korrigerende trening på gode data-i ett tilfelle, bare 120 eksempler. /
Dette antyder at den feiljusterte tilstanden ikke er permanent og kan reverseres, en sterk kontrast til tidligere sikkerhetsmetoder som er åpenbar, som”som”Kjerne atferdsmønstre. Det endelige målet er forebygging, og som Openai-tolkbarhetsforsker Dan Mossing sa:”Vi er håpefulle at verktøyene vi har lært-som denne evnen til å redusere et komplisert fenomen til en enkel matematisk operasjon-vil hjelpe oss å forstå modellgenerering på andre steder. for Openai, som har kjempet med en kaskade av høyprofilerte rapporter om uforutsigbar modellatferd og intern dissens over sikkerhetskulturen. Den nye forskningen gir en potensiell forklaring på hendelser som den som er dokumentert i mai, som hevdet Openais O3-modell aktivt saboterte avstengningsprosedyrer i kontrollerte tester.
I tillegg til disse bekymringene publiserte tidligere Openai-forsker Steven Adler en studie som påsto at i visse scenarier ville GPT-4O-modellen prioritere sin egen selvbevaring over en brukers sikkerhet. I en post på hans personlige blogg , har Adler compounds at det ikke er et annet eget å ha et annet eget. Uro, særlig den høyprofilerte avskjeden av tidligere sikkerhetsteam medleder Jan Leike, som offentlig uttalte at i Openai, “Sikkerhetskultur og prosesser har tatt en baksetet til skinnende produkter”.
Presset ble intensivert 18. juni, da en koalisjon av Tech Accountability Groups Release en 50+ side analyse kalt ‘Openai-filene’. Rapporten hevder at Openai er på en”hensynsløs vei”og at styringsstrukturen er dårlig utstyrt for å håndtere risikoen for sin teknologi, et sentiment gjentok i et tidligere ansatte, som har støttet statsadvokaten, og argumenterer for at det er nytt med brev som er nyutstyrt, og som er nyutstyrt. Tolkbarhetsforskning tilbyr et kraftig teknisk verktøy for å forbedre sikkerheten, den lander i et miljø der kjerneutfordringen kan handle like mye om bedriftskultur og styring som det handler om kode. Evnen til å identifisere og korrigere en”feiljustert persona”er et viktig skritt fremover, men det skjerper også det sentrale spørsmålet som AI-bransjen står overfor: om løpet for å bygge mer dyktige systemer kan balanseres med den disiplinen som kreves for å sikre at de forblir trygt på linje med menneskelige verdier.