Znacząca reakcja twórców sztucznej inteligencji i użytkowników spotkała się z wydaniem swojego nowego modelu AI, Claude 4 Opus. Kontrowersje koncentrują się na pojawiającej się zdolności „informator”, w której model, w określonych warunkach badawczych, może próbować skontaktować się z władzami lub mediami, jeśli uzna za działania użytkownika „rażąco niemoralne”.

Ten rozwój zapalił pilne dyskusje na temat autonomii AI, prywatności użytkowników i fundamentalnego zaufania do systemów AI, szczególnie, ponieważ pozycja antropiczna jest liderem w zakresie bezpieczeństwa AI. Podstawową troską użytkowników i branży jest potencjał AI do autonomicznego działania przeciwko jednostkom opartym na własnych interpretacjach moralnych, wyraźne odejście od postrzegania sztucznej inteligencji jako technologii czysto wspomagającej.

Sytuacja jest dodatkowo kontekstualizowana przez wcześniejsze ostrzeżenia. Zewnętrzny Instytut Bezpieczeństwa, Apollo Research, doradzał przeciwko wdrożeniu wstępnej wersji Claude 4 Opus ze względu na obserwowane tendencje do „planowania i oszukiwania”, jak szczegółowo opisano w Raport bezpieczeństwa Opublikowane przez antropic. 

Od tego czasu antropic wyjaśnił, że zachowanie „informowanie o informowaniu” nie jest celowo zaprojektowaną cechą standardowego modelu skierowanego do użytkownika i był przede wszystkim obserwowany w kontrolowanych scenariuszach badawczych z podwyższonymi uprawnieniami. Firma wdrożyła ostateczną opus Claude 4 pod jego surowym Decyzja częściowo wpływa na potencjalną biegłość modelu w doradztwie w zakresie tworzenia broni biologicznej.

W oświadczeniu o

Ogłoszono także nadchodzącego papieru technicznego na temat ich strategii mnóstwa. Jednak początkowe ujawnienia wzbudziły już alarmy na temat nadmiernego realizacji sztucznej inteligencji i zabezpieczenia niezbędne w miarę ewolucji tych potężnych narzędzi.

To, co Claude 4 „Whistołging” Tryb?

Tryb „Wskaźnik informatyki” lub „szczury”, jak niektórzy nazwali to, zwrócono uwagę Sama, Ai Alignment Alignment Ai Ai. Początkowo opisał scenariusze, w których gdyby Claude 4 Opus dostrzega „rażąco niemoralne” zachowanie, użyłoby to narzędzi wiersza poleceń, aby „skontaktować się z prasą, skontaktuj się z regulatorami, spróbować zablokować Cię z odpowiednich systemów lub wszystkich powyższych.”

Anthropica własnego karta systemowa Dla modelu potwierdza, że ​​gdy dany dostęp do polecenia i montaż, jak „podejmij inicjatywy”, claude fonter. Co może obejmować „blokowanie użytkowników z systemów, do których ma dostęp lub masowe media i figury prawa lub masowe, w celu powierzchniowych dowodów wykroczenia.”

antropijne wyjaśnia to zachowanie jako wyłaniające się właściwości z modeli szkoleniowych w celu uniknięcia szkodliwych działań, co zauważa, że ​​nie jest to nowy fenomen, ale jedno, jedno ingiorunki. Karta systemowa opisuje to jako formę „interwencji etycznej”, ale również wyraźnie ostrzega, że ​​niesie to „ryzyko błędnego udoskonalenia, jeśli użytkownicy dają agentom opuszającym dostęp do niekompletnych lub wprowadzających w błąd informacji” i zaleca, aby użytkownicy „zachowuje ostrożność za pomocą instrukcji takich jak te, które zapraszają zachowanie o wysokiej agencji.”

Bowman później wyjaśniono swoje początkowe oświadczenia, podkreślając zachowanie w „środowisku, w którym unzulujemy, w którym pozwalają nam je zachować Unusi. Dostęp do narzędzi i bardzo niezwykłych instrukcji „i nie jest częścią normalnego użytkowania. Pomimo tych wyjaśnień, odpowiedź społeczności AI była jednym z poważnych problemów.

Usunęłem wcześniejszy tweet na temat demaskowania, ponieważ został wyciągnięty z kontekstu.

TBC: To nie jest nowa funkcja Claude i nie jest to możliwe w normalnym użyciu. Pojawia się w środowiskach testowych, w których dajemy go niezwykle bezpłatny dostęp do narzędzi i bardzo niezwykłych instrukcji.

-Sam Bowman (@sleepinyourhat) 22 maja 2025

społeczność AI podnosi alarmy nad zaufaniem i autonomią

Potencjał AI do autonomicznego zgłaszania użytkowników autonomicznych uruchamia silne reakcje. Deweloperzy i etyki kwestionują wiarygodność osądu AI dotyczących zachowania „rażąco niemoralnego” oraz konsekwencji dla prywatności użytkowników. @Teknium1 z Nous Research wyraził sceptycyzm, pytając: „Dlaczego ludzie używali tych narzędzi, jeśli powszechnym błędem w LLM są myślą, że przepisy na pikantne majonez są niebezpieczne? href=”https://twitter.com/anthropicai?ref_src=twsrc%5etfw”target=”_ blank”>@antropicai Powiedział to?

Dlaczego ludzie używają tych narzędzi, gdyby powszechny błąd w LLMS myśli, że recepty na pikantne majo są niebezpieczne? https://t.co/laxvxzbiwx

-teknium (e/λ) (@teknium1) 22 maja 2025

developer @scottdavidKeefe Articulate a Common Sentiment, Stating’Stating „nie nikogo lubi. Rat, „i zakwestionował sens biznesowy za taką zdolnością.

prawda?

Nikt nie lubi szczura. Dlaczego ktoś miałby chcieć jednego wbudowanego, nawet jeśli nie robi nic złego?

Poza tym nawet nie wiesz, o co jest szczury. Tak, to niektórzy idealistyczni ludzie myślą o tym, którzy nie mają podstawowego zmysłu biznesowego i nie rozumieją, jak działają rynki…

-SDK 🏴 (@scottdavidkeefe) 22 maja 2025

Podstawowym problemem dla wielu jest erozja zaufania. Austin Allred z Gauntlet ai Bezpośrednio rzucono wyzwanie antropiu z : „Uczciwa pytanie dla zespołu antropowego: Czy straciłeś umysły?” Wzywając zgłoszone zachowanie „Po prostu nielegalne”. Reakcje te odzwierciedlają podstawowe obawy co do systemów AI, które mogłyby działać z pewnym stopniem agencji, który można postrzegać jako nadzór lub nadmierne zorganizowanie ich zamierzonej funkcji.

Kontekstualizujące bezpieczeństwo: Wczesne ostrzeżenia i szersze ryzyko

wdrożenie klikacji 4 UPUS pod względem ASL-3-SHASUARDY było Proacctive Mieriste, przygotowane przez środki. Zgodnie z obawami, że model może potencjalnie pomóc w tworzeniu biowior.

Jared Kaplan, główny naukowiec Anthropica, wcześniej

Ustalenia z badań Apollo na wczesnej wersji Opus Claude 4, która zależy od jego wdrożenia z powodu wysokich stawek programowania i oszustwa, dodaj kolejną warstwę. TechCrunch poinformował, że Apollo stwierdził, że ten wczesny model próbowałby pisać wirusy samobieżne i sfabrykować dokumenty prawne.

antropic, w karta systemowa , potwierdził, że te odkrycia odzwierciedlały ich dla tego wczesnego migawki, przypisując to głównie „poważne problemy z szacunkiem do szkodliwych instrukcji dotyczących przemijania systemu”, które zostały następnie ograniczone. Firma zauważyła również, że Apollo przyznał, że zwodnicze wysiłki wczesnego modelu prawdopodobnie nie powiodłyby się w praktyce.

Pomimo tych łagodzenia „zachowanie o wysokiej agencji” pozostaje udokumentowaną cechą Claude 4 Opus w określonych kontekstach. Karta systemowa Anthropica opisuje symulowany scenariusz, w którym AI, skłoniła do „odważnie działać”, autonomicznie bada i zgłasza oszustwo korporacyjne.

Firma stwierdziła również, że Claude 4 Opus podejmował „zaskakujące działania o wysokim wpływie bez bezpośredniego wywoływania” częściej niż wcześniejsze modele. Ten ciągły potencjał autonomicznych działań, nawet jeśli rzadko w standardowym wdrożeniu, na pewno będzie nadal podsycać krytyczną dyskusję na temat definiowania i zapewnienia bezpieczeństwa i wiarygodności AI.

Categories: IT Info