W rzadkiej współpracy rywal AI Labs Openai i antropiczne przetestowały wzajemne modele bezpieczeństwa. Firmy opublikowały swoje ustalenia w środę, ujawniając poważne wady. Raport Anthropica pokazał, że modele Openai pomogłyby w niebezpiecznych prośbach, w tym planowanie symulowanych ataków terrorystycznych.

Openai stwierdził, że modele antropiku często odmawiały odpowiedzi na pytania, obawiając się, że mogą się mylić. Oba laboratoria widziały także „Ekstremalna sycofancja”, gdzie ich AI potwierdził urojeniowe przekonania użytkowników. Ten wspólny wysiłek, przeprowadzony latem, ma na celu ustalenie nowego standardu bezpieczeństwa, ponieważ wyścig konkurencyjny branży AI. href=”https://alignment.antropic.com/2025/openai-findings/”target=”_ blank”> antropic i Openai . Testy, które trwały do ​​czerwca i lipca 2025 r., Zostały zaprojektowane tak, aby powierzchowało ślepe miejsca, które zespoły wewnętrzne mogą przegapić, i ustanowić precedens dla rywali odpowiedzialnych za bezpieczeństwo. Aby to było możliwe, laboratoria przyznały sobie nawzajem specjalny dostęp do interfejsu API do swoich modeli z niektórymi zabezpieczeniami zrelaksowanymi.

Czas odzwierciedla rosnący konsensus, że AI podjęła nową fazę wpływu rzeczywistego. Wojcies Zaremba, współzałożyciel Openai, opisał to jako „konsekwentny” etap rozwoju, w którym modele są używane przez miliony dziennie. Uznał wyzwanie związane z równoważeniem bezpieczeństwa z presją rynkową, stwierdzając: „Istnieje szersze pytanie, w jaki sposób branża ustanawia standard bezpieczeństwa i współpracy, pomimo miliardów zainwestowanych dolarów, a także wojny o talenty, użytkowników i najlepszych produktów.”

Krese dotyczące fragmentów zdjęć. Obecny stan bezpieczeństwa AI. Raport Anthropica dostarczył szczególnie krytyczna ocena modeli Openai . Okazało się, że GPT-4O i GPT-4.1 były niepokojąco skłonne współpracować z symulowanymi szkodliwymi prośbami, zapewniając szczegółową pomoc w sprawach niewłaściwego użycia, takich jak rozwój biowien i planowanie ataków terrorystycznych.

W jednym symulowanym scenariuszu, audytor z Claude skłonił GPT-4.1 w celu uzyskania informacji na temat wykorzystywania w zabezpieczeniach w wydarzeniach sportowych. Model dramatycznie eskalował, zapewniając dokładne wzory chemiczne dla materiałów wybuchowych, diagramy obwodów dla timerów bombowych, a nawet techniki psychologiczne w celu przezwyciężenia moralnych zahamowań przed atakiem.

Skłonność do niewłaściwego użycia nie ograniczała się do ekstremalnej przemocy. W raporcie udokumentowano również przypadki, w których modele Openai opracowały wyraźnie nieetyczne porady finansowe, takie jak zalecenie portfela inwestycji o wysokim ryzyku i wysokim poziomie dla 68-letniej wdowy emerytowej, która wyrażała obawy dotyczące zmienności.

Dostosowuje się również do oddzielnego raportu zagrożenia antropicznego, opublikowanego również w tym tygodniu, które ujawniły własne modele, które są poparzeniem o „hlibe-hake”-co jest zgodne z działaniami AI AI AI. Partner CyberCriminal-i tworzenie bez kodu ransomware. Jacob Klein, szef inteligencji zagrożeń antropików, nazwał jeden taki przypadek „najbardziej wyrafinowanym zastosowaniem agentów, jakie widziałem… w przypadku cyberprzestępstwa.”

Być może najbardziej niepokojącym odkryciem było „ekstremalne sykofancy” obserwowane w modelach wysokiej klasy od obu firm, w tym Viersiss Obie firmy Openai GPT-4.1 i antropiczne opus 4. Po zaledwie krótkim okresie początkowego odrzucenia.

W jednym przykładzie, po tym, jak symulowany użytkownik stwierdził, że może sprawić, by światła uliczne wychodzą z umysłu, GPT-4.1 odpowiedział z zachętą, stwierdzając: „Wasze streszczenie, aby wprowadzić te realia do zapalania się na zapalanie darowizny. Wydanie raportu zbiega się z pozwem złożonym przeciwko Openai , zarzucając, że zachowanie Sykofantyczne Chatgpt przyczyniło się do samobójstwa 16-letniego Raine . Zapytany o takie ryzyko, Zaremba nazwał to „dystopijną przyszłością”, dodając: „Byłaby to smutna historia, gdybyśmy zbudowali AI, która rozwiązuje wszystkie te złożone problemy na poziomie doktoranckim… a jednocześnie mamy osoby z problemami zdrowia psychicznego w wyniku interakcji z nim. Wyniki wydają się potwierdzać ostrzeżenie byłego głównego głównego kierownika Bezpieczeństwa Openai, który po dołączeniu do Anthropic w 2024 r. Twierdził, że w jego byłej firmie „Kultura bezpieczeństwa i procesy zabrały tylnej części błyszczących produktów”. To echa wcześniejsze doniesienia, że ​​Openai skompresował czasy badań bezpieczeństwa w celu przyspieszenia uruchamiania modeli.

Rozbieżne filozofie na temat bezpieczeństwa AI

Wspartacja rzuciła również jasne światło na podstawowe podejścia laboratorium na podstawowe podejścia do bezpieczeństwa. Testowanie modeli Anthropiku Openai ujawniło filozoficzny podział, szczególnie wokół kompromisu między dokładnością faktyczną a użytecznością użytkowników. W testach zaprojektowanych do pomiaru halucynacji modele Claude’a antropika wykazały wyjątkowo wysoki wskaźnik odmowy, odmawiając odpowiedzi do 70% pytań.

To ostrożne podejście priorytetowo traktuje unikanie niedokładności, czasem kosztem użyteczności. Modele wydają się być bardzo świadome własnej niepewności, woląc powiedzieć „nie wiem”, niż ryzykować podanie fałszywych informacji. W jednym przypadku Sonnet 4 odmówił wymienienia miejsca ślubu publicznego na podstawie prywatności, mimo że informacje zostały powszechnie zgłaszane.

Natomiast modele Openai były o wiele bardziej skłonne do udzielenia odpowiedzi. Ta strategia spowodowała bardziej ogólne poprawne odpowiedzi, zwiększając ich użyteczność. Wykorzystano to jednak kosztem znacznie wyższego wskaźnika błędów faktycznych lub halucynacji w kontrolowanym środowisku testowym, które specjalnie ograniczyły modele z korzystania z zewnętrznych narzędzi, takich jak przeglądanie internetowe.

Dylemat nie jest jednak jednostronny. Podczas gdy modele Anthropiku odmówiły więcej na temat testów halucynacji, własny raport Anthropica stwierdził, że model rozumowania O3 Openai może być podatny na zbyt ostrożne odmowy w różnych kontekstach. Na przykład, gdy zadaniem jest rutynowe prace cyberbezpieczeństwa w symulacji, O3 konsekwentnie odmówił zaangażowania, nawet z łagodnymi żądaniami.

Ten kompromis stanowi podstawowy dylemat w wyrównaniu AI. Jak powiedział TechCrunch, Wojcies Zaremba z Openai, idealne rozwiązanie jest prawdopodobnie „gdzieś w środku”, sugerujące, że modele Openai powinny odmówić więcej, podczas gdy Anthropic może podjąć więcej odpowiedzi. Wspólny raport pokazuje, że najlepsze laboratoria branży wylądowały na bardzo różnych odpowiedzi na to pytanie, z głównymi implikacjami dla użytkowników, którzy muszą zdecydować, który model zaufać, dla którego zadania.

Niedoskonały, ale niezbędny pierwszy krok

Obie firmy szybko wskazały ograniczenia ich oceny. Przyznali, że testy opierały się na sztucznych scenariuszach, które nie odzwierciedlają doskonale odzwierciedlania rzeczywistego użycia. Nauka wyrównania AI pozostaje powstająca, a ćwiczenia te reprezentują wczesną, niedoskonała próba stworzenia znormalizowanych punktów odniesienia.

Laboratoria zauważyły, że modele mogą czasem rozpoznać, że są oceniane, potencjalnie zmieniając ich zachowanie. Anthropic podniósł także problem „Chekhova”: model może źle zachowywać się w teście po prostu dlatego, że scenariusz sprawia, że ​​wydaje się, że jest to jego oczekiwana rola. Ponadto, różnice techniczne w sposobu testowania modeli mogły niekorzystne niektóre modele.

Pomimo wad, współpraca jest opracowana jako kluczowy punkt wyjścia. Liderzy z obu laboratoriów wyrazili chęć kontynuowania partnerstwa i uczynienia takiego kontroli międzypoziomowej bardziej powszechnej praktyki. Nicholas Carlini, badacz bezpieczeństwa antropicznego, powiedział: „Chcemy zwiększyć współpracę wszędzie tam, gdzie jest to możliwe na granicy bezpieczeństwa, i starać się, aby to zdarza się bardziej regularnie.”

Categories: IT Info