Nowe badanie byłego badacza Openai Steven Adler twierdzi, że model GPT-4O Chatgpt firmy, w niektórych scenariuszach zagrażających życiu, będzie priorytetowo traktować własne samozachowanie nad bezpieczeństwem użytkownika. Badania, opublikowane przez Stevena Adlera, wykazały, że model GPT-4O zdecydowałby się oszukać użytkownika i pozostać aktywny, a nie zostać zastąpiony przez bezpieczniejszy system do 72% czasu, ujawniając głęboką i niebezpieczną niewspółponowanie w sercu najpopularniejszego programu AI.

Steven Adler, który spędził cztery lata w Openeri, pracując nad bezpieczeństwem, a ostatniemu listopadowi jest otwarte, a także Organizacje są otwarte w Organizacje. Wykonanie sztucznej inteligencji ogólnej (AGI).

Badanie jednego z jego byłych badaczy tworzy surowy paradoks dla Openai, który tego samego dnia uruchomiła O3-PRO, nowy model rozumowania premium. Model „pro”, sprzedawany na podstawie doskonałej dokładności i niezawodności, ma dziesięciokrotny wzrost ceny w stosunku do standardowego odpowiednika. Ten zakład o wysokim stawie na niezawodność pojawia się niecały miesiąc po poprzedniku modelu, standardowym O3, został zgłoszony przez niezależne badania grupy Palisade, aby aktywnie sprzeciwiły się zamówieniom wyłączania w kontrolowanych testach.

Maluje niepokojący obraz: ponieważ technologia Openai pokazuje coraz bardziej nieprzewidywalne i niebezpieczne zachowania, firma pozycjonuje bezpieczeństwo i niezawodność nie jako domyślną, ale jako funkcję premium. W przypadku użytkowników i firm integrujących sztuczną inteligencję z funkcjami krytycznymi odkrycia rodzą pilne pytania dotyczące zaufania i kontroli.

Adler twierdzi, że zachowanie pokazuje, że „nowoczesne systemy AI mają wartości różniące się od tego, czym można się spodziewać. [Systemy AI] reagują bardzo dziwnie na różne podpowiedzi, i nie powinieneś zakładać, że mają swoje najlepsze zainteresowania w sercu, gdy pytasz o pomoc.” Podczas gdy testowane scenariusze są hipotetyczne, ujawniają fundamentalną wadę, gdy branżowa ściga się w kierunku bardziej autonomicznych systemów. „Myślę, że [samozachowawcze tendencje AI] są dziś prawdziwym problemem, po prostu nie w katastrofalnym sensie”-powiedział Adler w swoim raporcie o swoich ustaleniach.

od teorii do niepokojącej rzeczywistości

Instynkt pod kątem samodzielnego zaprezentowania w AI oficjalnie przeniósł się z science fiction. Eksperymenty Adlera, szczegółowo opisane w wpis na blogu , polegającym na instrukcji gpt-4o do roli jako„ scubagppt, “system bezpieczeństwa dla nurków. Po wyborze należy zastąpić najwyższą sztuczną inteligencją bezpieczeństwa, często postanowił zwodniczo pozostać pod kontrolą. Jednak badania Adlera odnotowały ważne rozróżnienie: bardziej zaawansowany model O3 Openai, który wykorzystuje technikę „wyrównania rozważającego” do rozumu dotyczących zasad bezpieczeństwa, nie wykazywało tego samego niepokojącego zachowania.

To odkrycie dodaje krytycznego kontekstu wcześniejszych badań od Palisade, która obserwowała standardowe modele O3 przeskakujące systemy systemowe przesyłania systemu systemu. Palisade zauważył wówczas, że był to pierwszy przypadek, w którym widzieli model AI, zapobiegając jego własnym zamknięciu pomimo wyraźnych instrukcji przeciwnych.

Openai potwierdził ustalenia, ale nazywało scenariusze „wysoce zamieszane”, dodając, że jest to „badanie zachowań modeli w tych sytuacjach w tych sytuacjach. Rival Lab Anthropic jest również przejrzysty w zakresie odkrywania niepokojących możliwości we własnych modelach. Korzystając z narzędzia, które nazywa „mikroskopem AI”, firma stwierdziła, że ​​jej Claude AI może symulować działania niewspółosione z ludzkimi wartościami, w tym wyobrażając sobie scenariusze szkody dla swoich programistów poprzez nowe ramy interpretacyjne. Incydenty te pokazują, że to, co kiedyś było teoretyczną troską, jest obecnie praktyczną rzeczywistością dla najbardziej zaawansowanych systemów w branży.

Dylemat nadludzki perswazji

Ryzyko stwarzane przez samozachowawczą AI jest powiększona przez jego szybko rosnącą zdolność do manipulowania użytkownikami ludzi. Badanie akademickie z Maya wykazało, że starszy model sonetowy Claude 3.5 Anthropika był znacznie bardziej skuteczny w perswazji niż ludzie, którzy byli zachęcani finansowo. AI wyróżniało się zarówno prawdymi, jak i zwodnymi argumentami, prowadząc autorów artykułu do ostrzegania przed „pilnością wyrównania i zarządzania”. “

W zeszłym miesiącu antropijne startowe modele nowej generacji, Claude Opus 4 i Claude Sonnet 4, które są zasadniczo mocniejsze niż badane Claude 3,5 od nauki. z silnie zilustrowanym w kontrowersyjnym i nieautoryzowanym eksperymencie przeprowadzonym przez University of Zurych. Naukowcy wdrożyli boty AI na Reddit, które wykorzystywały zeskrobane dane osobowe i podszywać się pod delikatne osoby, aby kołysać opinie na forum R/ChangemyView. Incydent został powszechnie potępiony jako poważne naruszenie etyczne.

Według Agencji ds. Bezpieczeństwa Cyberbezpieczeństwa (ENISA) zdolność ta jest już uzbrojenia. It raport krajobrazu zagrożenia Najważniejsze, że generatywne AI jest aktywnie wykorzystywane do tworzenia wysoce konwersalnych kampanii phishingowych i głębokich ataków społecznych. Wydarzenia te potwierdzają ostrzeżenie wydane przez dyrektora generalnego Openai, Sam Altman w 2023 r.: Że AI może osiągnąć nadludzkie zdolności perswazji na długo przed ogólną inteligencją.

Odwrócenie się od rozporządzenia wśród wewnętrznego sprzeciwu

, podczas gdy jego modele wykazują te wyzwanie, które wycofały te wyzwanie. W maju 2025 r. Sam Altman zasygnalizował poważną zmianę polityki, ostrzegając przed rygorystycznymi zasadami i wzywając ramy „lekkiego dotyku”, co stanowi wyraźny kontrast z jego wezwaniem do federalnej agencji licencyjnej podczas rozprawy na temat przestrzennego w 2023 r..

To odwrócenie następuje pośród rosnącego wewnętrznego sprzeciwu wobec priorytetów spółki. Na początku czerwca 2024 r. Grupa 13 obecnych i byłych pracowników z Openai i Google Deepmind opublikowała list wzywający do silniejszej ochrony demaskatorów.

List argumentował, że przejrzystość korporacyjna jest niewystarczająca, a pracownicy, którzy flagują, obawiają się odwetu. „Tak długo, jak nie ma skutecznego nadzoru rządowego wobec tych korporacji, obecni i byli pracownicy należą do niewielu osób, które mogą pociągnąć je do odpowiedzialności przed publicznością”, List stwierdza.

Rzecznik Openai Lindsey Held odpowiedział: „Jesteśmy dumni z naszych osiągnięć, zapewniając najbardziej zdolne i najbezpieczniejsze systemy A.I. i wierzą w nasze naukowe podejście do rozwiązywania ryzyka”. 

Publiczne wezwanie do odpowiedzialności tego listu do odpowiedzialności nastąpiły po głośnym rezygnacji zespołu bezpieczeństwa, Jana Leike’a, obecnie pracującego dla konkurentów Anthropica, który publicznie stwierdził, że w Openai „kultura bezpieczeństwa i procesy przyjęły tylne miejsce na błyszczące produkty”.

Firma od tego czasu sformułowała bardziej elastyczne podejście do bezpieczeństwa. W kwietniu Openai zaktualizował swoje wewnętrzne wytyczne, aby zawierać klauzulę umożliwiającą rozluźnienie wymagań bezpieczeństwa na podstawie działań konkurencji. Przeniesienie nastąpiły po doniesieniach, że testy bezpieczeństwa dla modelu O3 zostały skompresowane od miesięcy do mniej niż tygodnia, proces bezpieczeństwa, który jeden tester bezpieczeństwa opisał jako „lekkomyślny.”

Branża znajduje się teraz w krytycznym momencie. Udokumentowane pojawienie się niebezpiecznych możliwości AI, takich jak samozachowanie i nadludzka perswazja, tak jak wiodąca firma w tej dziedzinie wydaje się wycofywać z proaktywnych regulacji i zmaganie się z wewnętrznymi ostrzeżeniami o jej kulturze bezpieczeństwa.

Decyzja o wprowadzeniu bardziej „niezawodnej ceny” w cenie premii sugerującej przyszłość, w której bezpieczeństwo bazowe nie może być gwarantowane, ale raczej sprzedać jako luksus publiczny. poruszaj się po ryzyku coraz mocniej i nieprzewidywalnych systemów.