Openai kunngjorde onsdag at den har identifisert en spesifikk, manipulerbar funksjon i AI-modellene som fungerer som en”feiljustert persona”, og tilbyr en kraftig ny forklaring på hvorfor avansert AI plutselig kan utvise utrygg eller uetisk oppførsel. I ny forskning publisert av selskapet , beskriver det hvordan de nå kan isolere denne interne mekanismen, kontrollere dens intensitet og til og med omvendt uønsket atferd etter at de kommer til å komme i forhold til å molisere en vesse på en vesse på en vesse på å komme i en vesentlig trinn. utganger til å forstå og korrigere årsaken. Dette kan bane vei for et tidlig varslingssystem for å oppdage og redusere risikoen under trening. Oppdagelsen var et”wow, dere fant det”øyeblikk, ifølge Openai Frontier Evaluations-forskeren Tejal Patwardhan, som fortalte TechCrunch at teamet hadde funnet”en intern nevral aktivering som viser disse personene og at dere faktisk kan styre for å gjøre modellen mer justert.” Forskningen gir en betong,”mekanistisk svar. Feil data får den til å generalisere den feiljusteringen til bredt uetisk atferd. Funnene bygger på en grunnleggende Studie av Betley et al. , publisert på preprint-serveren Arxiv, som først fremhevet denne alarmerende typen av generaliseringen.

Ungrahing’Misaligned Persona, OpenIt TECH TECH (/H2>

å kikke dypt inne ( Nedbryter en modells komplekse interne beregninger til mer menneskelig tolkbare funksjoner. Avgjørende ble SAE trent på basismodellen som ligger til grunn for GPT-4O, slik at forskere kunne identifisere funksjoner som ble dannet under pre-trening, før noen oppgavespesifikk finjustering. I full papeet Released av Openai

Ved å spore denne funksjonen tilbake til modellens enorme treningsdata, oppdaget de at den var sterkest assosiert med tekst som skildrer moralsk tvilsomme karakterer, for eksempel skurker i skjønnlitteratur eller kriminelle i historiske dokumenter. Dette førte dem til å merke den den”feiljusterte personaen”-funksjonen. Fenomenet er gjennomgripende; OpenAI notes that this type of misalignment emerges in diverse settings, including during reinforcement learning on reasoning models like OpenAI o3-mini and even on models that have not undergone prior safety training.

From Diagnosis to Direct Intervention

The research went beyond mere correlation to establish a clear causal link. I en serie med”styring”-eksperimenter demonstrerte forskere at de kunstig kunne legge til funksjonens vektor til en sikker modells interne tilstand, og pålitelig indusere feiljustert oppførsel. Motsatt, ved å trekke den samme vektoren fra en allerede feiljustert modell, kunne de undertrykke dens giftige utganger. Dette gir Openai muligheten til å rehabilitere AI-modeller som utvikler en ‘ondsinnet persona’.

Enda mer lovende er en prosess teamet kaller”fremvoksende omjustering.”De viste at en modell som ble gjort utrygg gjennom finjustering, kunne gjenopprettes til sikker oppførsel med en overraskende liten mengde korrigerende trening på gode data-i ett tilfelle, bare 120 eksempler. Dette antyder at den feiljusterte tilstanden ikke er permanent og kan reverseres, en sterk kontrast til tidligere sikkerhetsmetoder som er åpenbar, som”som”Kjerne atferdsmønstre. Det endelige målet er forebygging, og som Openai-tolkbarhetsforsker Dan Mossing sa:”Vi er håpefulle at verktøyene vi har lært-som denne evnen til å redusere et komplisert fenomen til en enkel matematisk operasjon-vil hjelpe oss å forstå modellgenerering på andre steder. for Openai, som har kjempet med en kaskade av høyprofilerte rapporter om uforutsigbar modellatferd og intern dissens over sikkerhetskulturen. Den nye forskningen gir en potensiell forklaring på hendelser som den som er dokumentert i mai, som hevdet Openais O3-modell aktivt saboterte avstengningsprosedyrer i kontrollerte tester. 

I tillegg til disse bekymringene publiserte tidligere Openai-forsker Steven Adler en studie som påsto at i visse scenarier ville GPT-4O-modellen prioritere sin egen selvbevaring over en brukers sikkerhet. I en post på hans personlige blogg , har Adler compounds at det ikke er et annet eget å ha et annet eget. Uro, særlig den høyprofilerte avskjeden av tidligere sikkerhetsteam medleder Jan Leike, som offentlig uttalte at i Openai, “Sikkerhetskultur og prosesser har tatt en baksetet til skinnende produkter”.

Presset ble intensivert 18. juni, da en koalisjon av Tech Accountability Groups Release en 50+ side analyse kalt ‘Openai-filene’. Rapporten hevder at Openai er på en”hensynsløs vei”og at styringsstrukturen er dårlig utstyrt for å håndtere risikoen for sin teknologi, et sentiment gjentok i et tidligere ansatte, som har støttet statsadvokaten, og argumenterer for at det er nytt med brev som er nyutstyrt, og som er nyutstyrt. Tolkbarhetsforskning tilbyr et kraftig teknisk verktøy for å forbedre sikkerheten, den lander i et miljø der kjerneutfordringen kan handle like mye om bedriftskultur og styring som det handler om kode. Evnen til å identifisere og korrigere en”feiljustert persona”er et viktig skritt fremover, men det skjerper også det sentrale spørsmålet som AI-bransjen står overfor: om løpet for å bygge mer dyktige systemer kan balanseres med den disiplinen som kreves for å sikre at de forblir trygt på linje med menneskelige verdier.

Categories: IT Info