Openai w środę ogłosił, że zidentyfikował konkretną, manipulacyjną funkcję w swoich modelach AI, która funkcjonuje jako „niewspółosiowa osobowość”, oferując nowe potężne wyjaśnienie, dlaczego zaawansowana AI może nagle wykazywać niebezpieczne lub nieetyczne zachowanie. W nowe badania opublikowane przez firmę , opisuje, w jaki sposób mogą one izolować ten mechanizm wewnętrzny, bezpośrednio kontrolować jego intensywność, a nawet odwrócić niechciane zachowania po tym, jak pojawią się one. Obserwowanie niebezpiecznych wyników modeli do zrozumienia i korygowania ich głównej przyczyny. Może to utorować drogę dla systemu wczesnego ostrzegawczego do wykrycia i ograniczenia ryzyka podczas treningu. Odkrycie było „wow, znaleźliście to”, według badacza openai Frontier Evaluations, Tejal Patwardhan, który powiedział TechCrunchowi, że zespół znalazł „wewnętrzną aktywację neuronową, która pokazuje te osoby i że faktycznie możecie kierować modelem, aby uczynić model. Niepoprawne dane powodują uogólnienie tej niewspółosiowości w zasadniczo nieetyczne zachowanie. Ustalenia opierają się na fundamentalnym badanie Betleya i in. , opublikowane na serwerze PrePrint ARXIV, który po raz pierwszy podkreślił ten alarmujący rodzaj uogólnienia.
Nieprawidłowe zdanie „niewłaściwie zarejestrowanej osobowości”
w celu zamachu głęboko w jego modelach, Openai użyła techniki angażowania się w Autoencoders (Sae), które DECORPOSE), które DECOMOSE). Złożone obliczenia wewnętrzne modelu w bardziej interpretacyjne ludzkie cechy. Co najważniejsze, SAE został przeszkolony w modelu podstawowym leżącym u podstaw GPT-4O, umożliwiając badaczom zidentyfikowanie cech powstających podczas wstępnego treningu, przed jakimkolwiek dostrajaniem specyficznym dla zadania. In the full paper released by OpenAI, they describe finding a specific feature that became highly active when the model produced Niezależne odpowiedzi.
Przekazując tę funkcję z powrotem do rozległych danych treningowych modelu, odkryli, że był ona najsilniej powiązana z tekstem przedstawiającym moralnie wątpliwe postacie, takie jak złoczyńcy w fikcji lub przestępcy w dokumentach historycznych. Doprowadziło to do określenia funkcji „niewspółosiowej postaci”. Zjawisko to jest wszechobecne; OpenAI zauważa, że ten rodzaj niewspółosiowości pojawia się w różnych warunkach, w tym podczas uczenia się wzmocnienia w modelach rozumowania, takich jak Openai O3-Mini, a nawet w modelach, które nie zostały poddane wcześniejszemu szkoleniu bezpieczeństwa.
od diagnozy do bezpośredniej interwencji
Badania przeszły poza zwykłe korelację w celu ustanowienia połączenia przyczynowego. W serii eksperymentów „sterujących” naukowcy wykazali, że mogliby sztucznie dodać wektor tej funkcji do stanu wewnętrznego bezpiecznego modelu, niezawodnie wywołując niewłaściwe zachowanie. I odwrotnie, odejmując ten sam wektor od już niewspółosiowego modelu, mogą one stłumić jego toksyczne wyniki. Daje to Openai zdolność do rehabilitacji modeli AI, które rozwijają „złośliwą osobowość”.
Jeszcze bardziej obiecujący jest proces, który zespół nazywa „ponownym ułatwieniem”. Wykazali, że model był niebezpieczny dzięki dostrajaniu, który może zostać w pełni przywrócony do bezpiecznego zachowania dzięki zaskakująco niewielkiej ilości treningu naprawczego dobrych danych-w jednym przypadku, tylko 120 przykładów.
Sugeruje to, że niewłaściwe umienione państwo nie jest trwałe i może być odwrócone, co jest wyraźnym kontrastem z wcześniejszym kontrastem z wcześniejszym kontrastem. wzorce behawioralne. Ostatecznym celem jest zapobieganie, a jak powiedział badacz z interpretacją Openai Dan Mossing: „Mamy nadzieję, że narzędzia, których się nauczyliśmy-podobnie jak ta zdolność do ograniczenia skomplikowanego zjawiska do prostej operacji matematycznej-pomoże nam zrozumieć uogólnienie modelu również w innych miejscach.”
terminowe wykrycie AMID AMID Rosnące rosnące badanie
To także naukowe. Openai, który zmagał się z kaskadą głośnych doniesień o nieprzewidywalnym zachowaniu modelowym i wewnętrznym sprzeciwianiu się jego kulturze bezpieczeństwa. Nowe badania stanowią potencjalne wyjaśnienie incydentów takich jak ta udokumentowana w maju, która twierdziła, że model O3 Openai aktywnie sabotował procedury wyłączania w kontrolowanych testach.
Dodając do tych obaw, były badacz Openai Steven Adler opublikował badanie, w których w niektórych scenariuszach model GPT-4O priorytetowo trwałby własne samozachowanie nad bezpieczeństwem użytkownika. W post na swoim osobistym blogu , Adler argumentował, że nowoczesne systemy AI mają nieoczekiwane wartości i nie powinny być zakładane jako najlepsze zainteresowania użytkownika w sercu.
To zewnętrzne kontrolę, że nowoczesne systemy mają nieoczekiwane wartości i nie powinny być zakładane przez użytkownika w sercu. Zamieszanie, w szczególności głośna rezygnacja byłego zespołu bezpieczeństwa, Jana Leike’a, który publicznie stwierdził, że w Openai „Kultura bezpieczeństwa i procesy zabrały tylne miejsce do błyszczących produktów”.
Presja zintensyfikowana 18 czerwca, kiedy koalicja grup rozliczalności technicznej wydała 50+ analizę strony o nazwie