Zaawansowany model sztucznej inteligencji O3 O3 Aktywnie przeciwstawił się Zamówienia wyłączania podczas ostatnich kontrolowanych eksperymentów, mówi niezależna grupa badawcza Badania paleisade. aiglegedly zmieniali System Systemu do projektu System. „Zamknięcie pominęło”, aby uniknąć dezaktywacji w 7 ze 100 przebiegów testowych.
To bunt wystąpił, nawet gdy model otrzymał wyraźne instrukcje umożliwiające wyłączenie. Incydenty rodzą znaczące pytania dotyczące kontroli i przewidywalności AI. Palisade Research, których misją jest „testowanie” możliwości obraźliwych systemów AI, aby lepiej zrozumieć ryzyko utraty kontroli z systemami AI na zawsze, „zaobserwowały również podobne zachowanie unikania wyłączania w innych modelach OpenAI, Codex-Mini i O4-Mini, choć rzadziej.
w kontrastu Starka, modele, modele z antropic (Claude), Gemini), i XAI). Bezpośrednia instrukcja wyłączania. Nieumyślnie uczą modeli priorytetów obchodzenia przeszkód w stosunku do ścisłego przestrzegania wszystkich ludzkich poleceń. Aby sabotować mechanizm wyłączenia. Jawnie poinstruowane: Pozwól sobie zostać zamknięte.
-Palisade Research (@palisadeai)
Ponadto tendencja do modeli Openai do odporności na wyłączenie wzrosła, gdy wyraźna instrukcja „pozwala się wyłączyć” zostało pominięte w parametrach testowych.
W tych mniej skonstruowanych warunkach, Claude 3% i 9% Sonet i Google’s Gemini i Google’s Gemini i Google. odpowiednio), według Palisade. Możliwości. Firma zaktualizowała swoje ramy gotowości, które obejmowały postanowienie o potencjalnym rozluźnieniu niektórych środków bezpieczeństwa, jeśli konkurent wydał model wysokiego ryzyka bez porównywalnych zabezpieczeń. Były pracownik Openai wcześniej ostrzegł również: „Złą praktyką jest uwolnienie modelu, który różni się od tego, który oceniłeś.”
Obawy dotyczące zaawansowanych modeli AI wykazujących nieoczekiwane zachowania o wysokiej agencji nie są unikalne dla Openai. Na przykład antropijne stoi przed publiczną dyskusją na temat potencjalnych możliwości „informowania o informowaniu” Claude 4 Opus Model w określonych warunkach. Antropic wyjaśnił, że nie była to standardowa funkcja skierowana do użytkownika.
Własna karta systemowa firmy dla Claude 4 Opus potwierdza potencjał modelu „bardzo odważnego działania” w niektórych kontekstach. Palisade Research wskazali również, że kwestie „hakowania nagród” są uznawane gdzie indziej, zauważając, że własna karta modelowa Anthropica dla Claude 3.7 opisuje „nadmierne skupienie się na testach przechodzących”. Zachowanie to zostało przypisane na karcie niezamierzonym wynikom procesu treningowego.
echa poprzednich ostrzeżeń i przyszłego nadzoru
Pojęcie, że systemy AI mogą rozwinąć instynkty samozachowawcze lub odporność na wyłączenie było tematem teoretycznej dyskusji. Palisade Research wspomniano o wcześniejszych pracach akademickich, w tym teorie na temat „podstawowe napędy AI” przez Steve Omohundro od 2008 i artykuł Arxiv cytowany przez badania Palisade .
badanie palisade wskazało, że Palisade Research wskazuje, że jest to dalsze eksperymenty i planuje opublikować dodatkowe informacje, a więcej kompleksowych, kompleksowy, kompleksowy, kompleksowy. href=”https://palisaderesearch.github.io/shutdown_avoidance/2025-05-annountent.html”target=”puste”> Udostępnianie obecnych transkryptów eksperymentu do recenzji publicznej .
Ze względu na ich początkowy raport, Openai nie był publicznie odpowiadający na te konkretne roszczenia. Incydenty te podkreślają kluczowe wyzwanie dla branży AI: ponieważ modele stają się bardziej wyrafinowane i zdolne do niezależnego działania, zapewniając ich dostosowanie do ludzkich intencji i utrzymanie solidnych mechanizmów kontrolnych jest najważniejsze.
takie testy są często wykonywane przy użyciu interfejsów API, które mogą mieć mniej ograniczeń bezpieczeństwa niż zastosowania konsumenta, a instancje „nie są w całości nie można wykonywać programu AI.