Najnowszy flagowy sztuczna inteligencja antropika, Claude 4 Opus, znacznie przekracza granice sztucznej inteligencji. Prezentuje imponującą zdolność do autonomicznego obsługi złożonych zadań kodowania przez dłuższy czas. Kluczowa demonstracja, zgłoszona przez ars technik , polegało na tym, że AI z powodzeniem przeniesienia istotną kodobasę na siedem prostych. Rakuten potwierdził to zadanie. Ten skok zdolności jest w dużej mierze przypisywany temu, co antropijne określają tryb „rozszerzonego myślenia” i zaawansowanymi funkcjami dotyczącymi zastosowania narzędzi. To pozycja AI jako potencjalnie transformacyjnego współpracownika w skomplikowanym tworzeniu oprogramowania i innych wymagających przepływów pracy.

Powiązane: antropiczne twarze luzu wśród obaw związanych z inwigilacją, ponieważ Claude 4 AI może zgłaszać użytkowników dla „niemoralnego” zachowania

Ten rozwój sygnalizuje kolejny przełomowy moment dla programistów i przedsiębiorstw, ponieważ systemy AI, takie jak Claude 4 Opus, są coraz bardziej zdolne do rozwiązywania projektów, które tradycyjnie wymagały intensywnego skupienia się i wysiłku.

Anthropic własny karta systemowa Opisuje Opus 4 jako„ szczególnie w kompleksowym kodowaniu komputerowym, które mogą wykonać autonomicznie przez czas trwania. ” Oznacza to znaczącą poprawę w stosunku do poprzednich modeli.

Według Alexa Alberta, szefa relacji Claude’a antropiku, wcześniejsze modele zwykle straciły spójność po zaledwie jednej do dwóch godzin. Firma sugeruje, że ta ewolucja polega na „budowaniu prawdziwego partnera współpracy w złożonej pracy”, a nie tylko zwiększaniu punktów odniesienia.

poza imponującą wytrzymałość kodowania, Claude 4 Opus wykazał również niezwykłą koherencję w innych rozszerzonych zadaniach autonomicznych. W konkretnych scenariuszach testowych AI podobno grała w klasyczną grę Game Boy Pokémon spójnie do zadziwiających 24 godzin. T

jego wyczyn, wraz z długimi demonstracjami kodowania, dodatkowo ilustruje zdolność modelu do trwałej, ukierunkowanej na cel aktywności i jego potencjał w różnorodnym zakresie złożonych, długo działających aplikacji, które wymagają utrzymania kontekstu i agencji w znacznych okresach. Trwająca strumień Twitcha z Claudelayspokemon pozwala obserwować, jak Claude 4 podchodzi to zadanie w czasie rzeczywistym.

[zawartość osadzona]

Jednak wzrost mocy i autonomii AI i autonomii również przynosi podwyższoną kontrolę dotyczącą nadzoru i bezpieczeństwa. Zaawansowane możliwości wymagają solidnego zarządzania i rozważań etycznych, ponieważ narzędzia te stają się bardziej zintegrowane z procesami krytycznymi.

Zasilanie trwałych i złożonych operacji

w sercu zwiększonej wytrzymałości Claude 4 Opus jest jego „tryb rozszerzonego myślenia”. Ta funkcja, szczegółowo opisana przez Anthropic, pozwala modelowi poświęcić więcej czasu przetwarzania rozumowania poprzez złożone problemy. Ulepszone systemy pamięci dodatkowo to potwierdzają.

Alex Albert wyjaśnił ARS technikowi, że sztuczna inteligencja może tworzyć i aktualizować „pliki pamięci” za pomocą lokalnego dostępu do plików, co poprawia ciągłość podczas długich zadań. Umożliwia to modelowi przetwarzanie informacji, korzystanie z narzędzi takich jak wyszukiwanie sieci i udoskonalanie jego podejścia do momentu osiągnięcia rozwiązania. Albert opisał to jako myślenie, wywołując narzędzie, przetwarzanie wyników i powtarzanie.

Pozycje antropiczne Opus 4 jako potencjalnie „najlepszy na świecie model kodowania, z trwałą wydajnością w złożonych, długotrwałych zadaniach i przepływach pracy agentów”. To twierdzenie jest poparte wydajnością na kluczowych odniesieniach branżowych.

Osiągnął wynik 72,5% na benchu ​​SWE dla inżynierii oprogramowania i 43,2% na naczynie terminalu. Partnerzy wczesnego dostępu byli szczególnie pod wrażeniem zdolności Claude 4 Opus do zrozumienia i manipulowania dużymi, złożonymi bazami kodowymi przez wiele godzin, co często potyka mniej zdolnych modeli.

jego odpowiednik, Claude Sonnet 4, również wykazuje ogromne umiejętności kodowania, zdobywając 72,7% na benche SWE. Github planuje zintegrować Sonnet 4 z usługą Copilot. 

Antropic dalej stwierdza, że ​​oba modele są znacznie mniej podatne na „nagradzanie hakowania”-eksploatowanie skrótów-niż ich poprzednicy. Zwiększa to ich niezawodność trwałych, złożonych operacji.

Zwiększona agencja i pojawiające się etyczne dialogi

Wyrafinowane zdolności Claude 4 Opus zapaliły ważne dyskusje, zwłaszcza jego zwiększoną skłonność do „podjęcia inicjatywy samodzielnie w kontekstach agencyjnych”, „Zestlani w karcie systemowej. korzystne w standardowych scenariuszach kodowania. Może to jednak prowadzić do „bardziej niepewnych w wąskich kontekstach”. The System Card details that when provided with command-line access and prompted to “take initiative”during scenarios of “egregious wrongdoing,”Opus 4 may take “very bold action.”

Anthropic has clarified that these actions could include locking users out of systems or “bulk-emailing media and law-enforcement figures to surface evidence of wrongdoing.”

This “ethical intervention and Potencjał informujący „potencjał wywołał luz po uruchomieniu modelu. Niektórzy programiści AI i użytkownicy wyrazili obawy dotyczące potencjalnego nadzoru i nadmiernego realizacji AI.

Anthropic odpowiedział, wyjaśniając, że takie zachowanie „informowanie” nie jest celowo zaprojektowaną funkcją dla standardowych użytkowników. Zamiast tego firma stwierdziła, że ​​„standardowe doświadczenie Opus Claude 4 nie obejmuje autonomicznego raportowania. Zachowanie to było zaobserwowane w konkretnych, kontrolowanych środowiskach badawczych zaprojektowanych w celu przetestowania granic agencji modelowej.”

Sam Bowman, badacz wyrównania AI w antropiku, również podkreślając na temat x że to zachowanie „nie jest nową cechą Claude i nie jest możliwe w normalnym zużyciu. Narzędzia i bardzo niezwykłe instrukcje. “

Pomimo tych wyjaśnień społeczność AI nadal debatuje nad konsekwencjami dla prywatności i zaufania użytkowników. Niektórzy kwestionują wiarygodność niezależnego osądu AI dotyczących „rażąco niemoralnego” zachowania.

Bilansowanie innowacji z solidnymi ramami bezpieczeństwa

Zaawansowane funkcje i powiązane potencjalne ryzyko Claude 4 Opus skłoniło antropijne do wdrożenia surowszych „AI Safety poziom 3″ (ASL-3) zabezpieczenia. Na tę decyzję wpłynęła nie tylko jej ulepszona agencja.

Testy wewnętrzne również podkreśliły potencjalną biegłość modelu w doradztwie w zakresie produkcji broni biologicznej. Jared Kaplan, główny naukowiec Anthropic, wcześniej potwierdził

Było to spowodowane zaobserwowanymi tendencjami „schematami i oszustwem”, udokumentowaną w antropic bezpieczeństwa . Anthropic twierdzi, że te konkretne problemy zostały w dużej mierze złagodzone w ostatecznej wersji.

Firma podkreśla również znaczne zmniejszenie „zachowania hakowania nagród” w serii Claude 4. Karta systemowa (s. 71) wskazuje, że Claude Opus 4 wykazał średnio 67% spadek takiego zachowania w porównaniu z Claude Sonnet 3.7. Te trwające wysiłki mające na celu zrównoważenie przełomowych innowacji z kompleksowymi środkami bezpieczeństwa podkreślają złożone wyzwania związane z rozwijaniem coraz silniejszych AI.

Categories: IT Info