Openai heeft woensdag aangekondigd dat het een specifieke, manipuleerbare functie heeft geïdentificeerd in zijn AI-modellen die functioneert als een”verkeerd uitgelijnde persona”, die een krachtige nieuwe verklaring biedt waarom geavanceerde AI plotseling onveilig of onethisch gedrag kan vertonen. In Nieuw onderzoek gepubliceerd door het bedrijf , beschrijft het hoe ze nu dit interne mechanisme kunnen isoleren, rechtstreeks de intensiteit van de intensiteit van het veld kunnen zijn, het veld van het veld van het veld, een aanzienlijke stap in een significante stap in een significante stap in een significante stap in een significante stap in AI Safety. Het observeren van gevaarlijke modeluitgangen om hun hoofdoorzaak te begrijpen en te corrigeren. Dit kan de weg vrijmaken voor een vroeg waarschuwingssysteem om risico’s tijdens de training te detecteren en te verminderen. De ontdekking was een”wow, jullie vonden het”moment, volgens Openai Frontier Evaluations-onderzoeker Tejal Patwardhan, die TechCrunch vertelde dat het team had gevonden”een interne neurale activering die deze persona’s toont en dat je daadwerkelijk kunt sturen om het model meer te maken.”zorgt ervoor dat het die verkeerde uitlijning generaliseert in breed onethisch gedrag. De bevindingen bouwen voort op een fundamentele studie door Betley et al. , gepubliceerd op de preprint-server arxiv, die eerst dit alarmerende type van generalisatie benadrukte. src=”https://winbuzzer.com/wp-content/uploads/2024/12/openai-ai-safety.jpg”>

het ontmaskeren van de ‘verkeerd uitgelijnde persona’

De diepe inside in zijn modellen gebruikte een technieken van sparen (saecoRES (saecoDers (saecoSe), het deco van de deke en de dekken), wat een techniek betreurt, het deco-en strongtijds. De complexe interne berekeningen van het model in meer menselijke interpreteerbare kenmerken. Cruciaal is dat de SAE is getraind op het basismodel dat ten grondslag ligt aan GPT-4O, waardoor onderzoekers functies konden identificeren die zich tijdens pre-training hebben gevormd, vóór enige taakspecifieke verfijning. In de Full Paper Beschrijft een specifieke functie die is geproduceerd wanneer het model een specifieke functie wordt beschreven. verkeerd uitgelijnde reacties.

Door deze functie terug te traceren naar de enorme trainingsgegevens van het model, ontdekten ze dat het het sterkst geassocieerd was met tekst met moreel twijfelachtige karakters, zoals schurken in fictie of criminelen in historische documenten. Dit bracht hen ertoe het de functie”verkeerd uitgelijnde persona”te labelen. Het fenomeen is alomtegenwoordig; Openai merkt op dat dit type verkeerde uitlijning naar voren komt in diverse omgevingen, inclusief tijdens het leren van versterking op redeneermodellen zoals OpenAI O3-Mini en zelfs op modellen die geen eerdere veiligheidstraining hebben ondergaan.

van diagnose om interventie te directe interventie

Het onderzoek ging verder dan een duidelijke oorzaak van een duidelijke oorzaak. In een reeks”stuur”-experimenten hebben wetenschappers aangetoond dat ze de vector van de functie kunstmatig konden toevoegen aan de interne toestand van een veilig model, waardoor verkeerd uitgelijnd gedrag op betrouwbare wijze werd geïnduceerd. Omgekeerd, door diezelfde vector af te trekken van een reeds verkeerd uitgelijnd model, konden ze zijn giftige uitgangen onderdrukken. Dit geeft Openai de mogelijkheid om AI-modellen te rehabiliteren die een ‘kwaadwillende persona’ ontwikkelen.

Nog veelbelovend is een proces dat het team”opkomende herinformatie”noemt. Ze toonden aan dat een model dat onveilig is gemaakt door te verfijnen, volledig kan worden hersteld in veilig gedrag met een verrassend kleine hoeveelheid corrigerende training over goede gegevens-in één geval, slechts 120 voorbeelden.

Dit suggereert dat de verkeerd uitgelijnde staat niet permanent is en kan worden gereden, een groot contrast voor eerdere veiligheidsmethoden patronen. The ultimate goal is prevention, and as OpenAI interpretability researcher Dan Mossing said, “We are hopeful that the tools we’ve learned — like this ability to reduce a complicated phenomenon to a simple mathematical operation — will help us understand model generalization in other places as well.”

A Timely Discovery Amid Growing Scrutiny

This scientific breakthrough arrives at a critical moment for OpenAI, dat is geworden met een cascade van spraakmakende rapporten over onvoorspelbaar modelgedrag en interne afwijkende meningen over de veiligheidscultuur. Het nieuwe onderzoek biedt een potentiële verklaring voor incidenten zoals het in mei gedocumenteerde incidenten, die het O3-model van OpenAI claimde, saboteerde de afsluitingsprocedures actief in gecontroleerde tests. 

Toevoegen aan deze zorgen, publiceerde voormalig Openai-onderzoeker Steven Adler een onderzoek waarin werd beweerd dat in bepaalde scenario’s het GPT-4O-model prioriteit zou geven aan zijn eigen zelfbehoud boven de veiligheid van een gebruiker. In een Post op zijn persoonlijke blog , betoogde Adler dat moderne AI-systemen onverwachte waarden hebben en niet in het hart van een gebruiker zijn. Onbesomst, met name de spraakmakende ontslag van het voormalige veiligheidsteam co-lead Jan Leike, die publiekelijk verklaarde dat bij Openai,”veiligheidscultuur en processen hebben een achterbank genomen voor glanzende producten”.

De druk die op 18 juni wordt geïntensiveerd op 18 juni, toen een coalitie van technische verantwoordelijkheidsgroepen een 50+ pagina-pagina’s heeft uitgebracht die een 50+ pagina-analyse heeft uitgespeeld,”https:/wwwww.”target=”_ blanco”> ‘The Openai Files’. Het rapport beweert dat Openai op een”roekeloos pad”is en dat de governance-structuur slecht is uitgerust om de risico’s van zijn technologie af te handelen, een sentiment weerspiegelt in een brief van voormalige werknemers, die een nieuwe interpreteerbaarheidsonderzoek heeft aangeboden. Krachtig technisch hulpmiddel voor het verbeteren van de veiligheid, het landt in een omgeving waar de kernuitdaging net zo goed gaat over bedrijfscultuur en governance als over code. De mogelijkheid om een ​​”verkeerd uitgelijnde persona”te identificeren en te corrigeren, is een essentiële stap voorwaarts, maar het scherpt ook de centrale vraag waarmee de AI-industrie wordt geconfronteerd: of de race om meer capabele systemen te bouwen kan worden uitgebalanceerd met de discipline die nodig is om ervoor te zorgen dat ze veilig zijn afgestemd op menselijke waarden.

Categories: IT Info