Anthropic wprowadził Claude Sonnet 4.5, jego najnowszy model AI, który, jak twierdzi firma, jest najlepszym i najbezpieczniejszym modelem kodowania i budowania złożonych agentów oprogramowania. Claude Sonnet 4.5 pokazuje najnowocześniejszą wydajność w kluczowych testach porównawczych branżowych.

Model przewyższa swoich poprzedników i rywali, takich jak Openai GPT-5 i Google’s Gemini. Uruchomienie obejmuje główne aktualizacje narzędzi programistycznych Anthropica, takie jak nowe rozszerzenie kodu VS i Agent SDK, mające na celu umożliwienie bardziej wyrafinowanymi, długoterminowymi zadaniami. href=”https://www.antropic.com/claude-sonnet-4-5-system-card”target=”_ blank”> Zmniejsz ryzyko i zmniejszaj szkodliwe zachowania . Ten ruch pozycjonuje go jako bardziej niezawodny i wyrównany partner AI dla programistów w szybko eskalacji rasy technologicznej.

Nowy punkt odniesienia dla kodowania AI i Agentical Endurance

Roszczenia o supremacji są poparte ladą imponujących wskaźników, które pozycjonują sonnet 4.5 na szczycie kilku kluczowych tablic liderów w branży.

href=”https://www.antropic.com/news/claude-sonnet-4-5″target=”_ blank”> Oficjalne ogłoszenie Podkreśla jego najnowocześniejsze wyniki w zakresie wymagających ocen, takich jak Swe-bench weryfikowane, benchmark, który ma zdolność AI do rozwiązywania rzeczywistych problemów z oprogramowaniem github.

Model ustanowił również nowy rekord w Osworld, pakiecie, który testuje zdolność sztucznej inteligencji do wykonywania praktycznych zadań komputerowych w świecie rzeczywistym.

Osiągnął wynik 61,4 procent, znaczący skok z 42,2 procent posiadanych przez jego poprzednik, Sonnet 4, zaledwie cztery miesiące wcześniej. Ten występ stawia przed konkurencją, takimi jak Google’s Gemini 2.5 Pro i Openai’s GPT-5 na wielu frontach, zgodnie z testami porównawczymi udostępnionymi przez firmę.

Ten skok wydajności jest nie tylko przyrostowy; W szczególności przewyższa droższy flagowy model Anthropica, Opus 4.1. Dostarczając doskonałe możliwości w tej samej cenie, co starszy sonet 4, Anthropic ma silny argument za wydajnością i wartością, oferując programistom dostęp do wydajności najwyższej jakości bez premii.

Poza surowymi wynikami, kluczowym wyróżnikiem jest ogromnie ulepszona wytrzymałość na autonomiczną pracę. Antropic donosi, że Sonnet 4.5 może działać na złożonych, wieloetapowych projektach przez ponad 30 godzin.

Jest to monumentalny skok z około siedmiogodzinnej zdolności Opus Claude 4, który był już uważany za przełomowy, gdy został uruchomiony w maju.

To nie jest tylko teoretyczna granica. Podczas wczesnych prób antropijnego badacza AI David Hershey powiedział TechCrunch, że oglądał model nie tylko buduje aplikację, ale także stać w usługach baz danych, kupuje nazwy domen i wykonuje audyt bezpieczeństwa SOC 2 w swojej pracy.

Sonnet 4.5 demonstruje nowy poziom praktycznej, długiej horyzontu agencji, która przechodzi poza izolowane taski kodowe do izolowania. szerokość. Wczesne informacje zwrotne od ekspertów w dziedzinie finansów, prawa, medycyny i STEM wykazały, że SONNET 4.5 ma znacznie lepszą wiedzę i rozumowanie specyficzne dla domeny niż poprzednie modele.

Jest to dodatkowo poparte jego silną wydajnością w szerokim zakresie oceny mierzących zdolności matematyczne i rozumowania.

Ta długoterminowa zdolność operacyjna jest kluczowa dla budowania tego rodzaju agencyjnych systemów antropowych. Jak zauważył Hershey, trudno jest uchwycić wydajność Claude Sonnet 4.5 w samych testach porównawczych, podkreślając zdolność modelu do rozwiązywania rzeczywistych wyzwań związanych z długim horyzontem, które wykraczają poza proste generowanie kodu.

Wzmacniając programistów z podwyższonym zestawem Toolkit

więcej niż tylko modelu, sonet 4,5 jest znacząca rozszerzona. Ekosystem programisty antropika. Firma ma wprowadziła pakiet potężnych nowych narzędzi i funkcje zaprojektowane do budowania z claude bardziej robot i autonomiczne, bezpośrednio zwracające się do kluczowych punktów bólu dewelopera. Popularny agent kodujący firmy. Obejmuje teraz „punkty kontrolne”, wysoce żądaną funkcję, która automatycznie zapisuje stan kodowy przed każdą zmianą.

To pozwala programistom natychmiastowe przewinienie do poprzedniej wersji, zachęcając do bardziej ambitnej i eksploracyjnej pracy bez obawy o nie do odbioru błędów.

Doświadczenie deweloperów jest dodatkowo ulepszone dzięki A Native vs Code rozszerzenie , obecnie w wersji beta. Dostaje to możliwości kodu Claude bezpośrednio do IDE, oferując bogatszy, graficzny interfejs z dedykowanym paskiem bocznym i inline różnic w czasie rzeczywistym.

Ruchowi to dla programistów, którzy wolą pracować w swoim głównym środowisku graficznym nad terminalem.

w celu rozwiązania jednego z największych technicznych przeszkód AI agentów AI-Kontroint-antroal. href=”https://www.antropic.com/news/context-management”Target=”_ puste”> Zaawansowane narzędzia do zarządzania kontekstem .

„Edycja kontekstu„ Automatycznie usuwa ciągłe połączenia narzędziowe i wyniki z rozmowy, podczas gdy nowe „narzędzie pamięci” włącza Claude do przechowywania i wygłoszenia informacji opartej na pliku, które pozostaje w ramach Sesji. Podejście dwukrotne ma mierzalny wpływ. Testy wewnętrzne wykazały, że połączenie tych narzędzi poprawiło wydajność agentów w złożonych zadaniach o 39% i zmniejszone zużycie tokenów o 84% w 100-skierowanej oceny wyszukiwania sieci, umożliwiając agentom wypełnienie przepływów pracy, które w przeciwnym razie upadłyby.

Być może najbardziej znacząco dla zaawansowanych użytkowników, antropic jest uwalniając agenta Claude’a sdk . To nie jest tylko biblioteka; Daje programistom dostęp do tej samej podstawowej infrastruktury, która zasila kod Claude. Umożliwia tworzenie niestandardowych agentów specjalistycznych przepływów pracy, od zgodności finansowej po cyberbezpieczeństwo.

Ta strategia bezpośrednio wspiera długoterminową wizję firmy. Jak wcześniej stwierdził dyrektor generalny Dario Amodei: „zmierzamy do świata, w którym ludzki programista może zarządzać flotą agentów, ale myślę, że dalsze zaangażowanie człowieka będzie ważne dla kontroli jakości…„ Nowy SDK jest fundamentalnym krokiem w celu uczynienia tej wizji rzeczywistości dla wszystkich programistów.

silniejsze zaangażowanie w bezpieczeństwo i wyrównanie

antarne to heavicin. 4.5 jako „najbardziej wyrównany model graniczny”. Oficjalna karta systemu firmy szczegółowo opisuje szeroko zakrojone szkolenie bezpieczeństwa, które doprowadziło do znacznego zmniejszenia niepożądanych zachowań, takich jak pochlebca, oszustwo i poszukiwanie mocy.

Model jest wydawany w ramach Rame Second Safety AI 3 (ASL-3). Obejmuje to wdrażanie filtrów zaprojektowanych w celu wykrywania i zapobiegania wytwarzaniu potencjalnie niebezpiecznych wyników, szczególnie tych związanych z bronią chemiczną, biologiczną, radiologiczną i nuklearną (CBRN).

To skupienie się na bezpieczeństwie jest bezpośrednią reakcją na obawy dotyczące branży i cele, aby budować zaufanie z klientami korporacyjnymi. Firma twierdzi, że Sonnet 4.5 jest znacznie mniej podatna na szybkie ataki wtrysku i inne luki, które nękały poprzednie pokolenia modeli AI.

Prowadzenie hiperkonkurencyjnego krajobrazu AI

Uruchomienie Sonnet 4.5 nie odbywa się w próżni. Jest to strategiczny ruch na hiperkonkurencyjnym rynku. Zaledwie kilka tygodni temu Openai uruchomił GPT-5-Codex, specjalistyczny model kodowania agencyjnego. Jego przewód produktu, Alexander Emiricos, podkreślił jego adaptacyjną inteligencję, stwierdzając: „GPT-5-Codex może zdecydować o pięciu minut na problem, że musi spędzić kolejną godzinę.”

Tymczasem Gemini Google niedawno wykazało nadludzkie rozwiązywanie problemów w finałach ICPC. Meta weszła również do walki z modelem Code World, „neuronowy debugger”, który koncentruje się na zrozumieniu logiki kodu, a nie tylko jej pisaniu. Strategia antropika wydaje się być dwojakowa: konkuruje o surową wydajność, jednocześnie różnicując bezpieczeństwo i doświadczenie programistów. Wczesne informacje zwrotne od partnerów takich jak Cursor i Windsurf są pozytywne.

CEO Cursor, Michael Truell, Noted , „Widzimy wydajność kodowania z Claude Sonet. Zadania horyzontu: „Podczas gdy dyrektor generalny Windsurfa, Jeff Wang, nazwał go„ nową generacją modeli kodowania “.

Dla programistów ceny pozostają niezmienione od Claude Sonnet 4, przy 3 USD za milion tokenów wejściowych i 15 USD za milion tokenów wyjściowych, co czyni nowe możliwości zwiększania bezpośredniego aktualizacji. Aby zaprezentować swoją moc, antropic oferuje również tymczasowy podgląd badań o nazwie

Categories: IT Info