Anthropic har lansert Claude Sonnet 4.5, den siste AI-modellen, som selskapet hevder er verdens beste og sikreste modell for koding og å bygge komplekse programvareagenter. Claude Sonnet 4.5 demonstrerer avanserte ytelser på viktige bransjens benchmarks.

Modellen overgår sine forgjengere og rivaler som Openais GPT-5 og Googles Gemini. Lanseringen inkluderer store oppgraderinger til Anthropics utviklerverktøy, for eksempel en ny VS-kodeutvidelse og en Agent SDK, som tar sikte på href=”https://www.antropic.com/claude-sonnet-4-5-system-card”Target=”_ blank”> Avbestill risiko og reduser skadelig atferd . Dette trekket plasserer det som en mer pålitelig og justert AI-partner for utviklere i et raskt opptrappende teknologisk løp.

Et nytt målestokk for AI-koding og agentutholdenhet

Antropisk påstander om overherredømme støttes av en skifer med imponerende beregninger som posisjonerer Sonnet 4.5 øverst på flere viktige bransjelederbord.

selskapets Offisiell kunngjøring fremhever sin avanserte problemstilling på å krevde evalueringer som Resolve-Bench Verified, A Benchmark som måler en A-vekten. Rese-vekst.

Modellen satte også en ny rekord på Osworld, en suite som tester en AIs kapasitet til å utføre praktiske datamaskinoppgaver i den virkelige verden.

Den oppnådde en score på 61,4 prosent, et betydelig sprang fra 42,2 prosent holdt av sin forgjenger, Sonnet 4, bare fire måneder før. Denne ytelsen plasserer den foran konkurrenter som Googles Gemini 2.5 Pro og Openais GPT-5 på flere fronter, ifølge benchmarks som er delt av selskapet.

Dette ytelseshoppet er ikke bare trinnvis; Den overgår spesielt Anthropics egen dyrere flaggskipsmodell, Opus 4.1. Ved å levere overlegne evner til samme prispunkt som den eldre Sonnet 4, gjør Anthropic en sterk sak for effektivitet og verdi, og tilbyr utviklere tilgang til topp ytelse uten kostnadspremie.

Utover rå score, er en nøkkeldifferensierer modellens veldig forbedrede sluttforsikring for autonomt arbeid. Antropiske rapporter om at Sonnet 4.5 kan operere på komplekse, flertrinnsprosjekter i over 30 timer kontinuerlig.

Dette er et monumentalt hopp fra den omtrent syv timers evnen til Claude 4 Opus, som allerede ble ansett som et gjennombrudd da det ble lansert i mai.

Dette er ikke bare en teoretisk begrensning. Under tidlige forsøk sa antropisk AI-forsker David Hershey til TechCrunch at han så på modellen ikke bare bygge en applikasjon, men også stå opp databasetjenester, kjøpe domenenavn og utføre en SOC 2-sikkerhetsrevisjon på eget arbeid.

Sonnet 4. Demonstrerer et nytt nivå av praktisk, lang-horizon-byrå som beveger seg i PO-PO-PO-POPES-sonet. større bredde. Tidlige tilbakemeldinger fra eksperter innen finans, jus, medisin og STEM fant at Sonnet 4.5 har dramatisk bedre domenespesifikk kunnskap og resonnement enn tidligere modeller.

Dette støttes videre av dens sterke ytelse på et bredt spekter av evalueringer. Som Hershey bemerket, er det vanskelig å fange Claude Sonnet 4.5s ytelse på benchmarks alene, og fremheve modellens evne til Betydelig utvidelse av Anthropics utviklerøkosystem. Selskapet har Rullet ut en suite med kraftig, direkte adresse. Claude Code, selskapets populære kodingsagent. Den inkluderer nå”sjekkpunkter”, en høyt etterspurt funksjon som automatisk lagrer kodetilstanden før hver endring.

Dette lar utviklere umiddelbart spole tilbake til en tidligere versjon, og oppmuntre til mer ambisiøst og utforskende arbeid uten frykten for uopprettelig feil.

Utvikleropplevelsen er ytterligere forbedret med en utvikleropplevelsen er ytterligere frykten for å bli frykten for uopprettelig feil. href=”https://marketplace.visualStudio.com/items?itemname=anthropic.claude-code”Target=”_ Blank”> Native vs Code Extension , for tiden i beta. Dette bringer Claude-kodes evner direkte inn i IDE, og tilbyr et rikere, grafisk grensesnitt med en dedikert sidefelt og sanntids inline diffs.

Flytting henvender seg til utviklere som foretrekker å jobbe innenfor sitt primære grafiske miljø over en lang tid.

for å løse en av de største tekniske hurdlene for lang tid.

for å løse en av de største tekniske hurrene har en primær. href=”https://www.antropic.com/news/context-management”Target=”_ Blank”> Advanced Context Management Tools .

“Kontekstredigering”Rømmer automatisk Denne tosidige tilnærmingen har en målbar innvirkning. Interne tester viste at å kombinere disse verktøyene forbedret middelytelsen på komplekse oppgaver med 39% og reduserte tokenforbruket med 84% i en 100-sving nettsøkevaluering, slik at agenter kan fullføre arbeidsflyter som ellers ville mislykkes.

kanskje mest vesentlig for avanserte brukere, antropisk er Slipper Claude-agenten SDK . Dette er ikke bare et bibliotek; Det gir utviklere tilgang til den samme kjerneinfrastrukturen som driver Claude Code. Det muliggjør oppretting av tilpassede agenter for spesialiserte arbeidsflyter, fra økonomisk etterlevelse til cybersecurity.

Denne strategien støtter direkte selskapets langsiktige visjon. Som administrerende direktør Dario Amodei tidligere uttalte:”Vi er på vei til en verden der en menneskelig utvikler kan håndtere en flåte av agenter, men jeg tror fortsatt menneskelig involvering kommer til å være viktig for kvalitetskontrollen…”Den nye SDK er et grunnleggende skritt mot å gjøre det visjonen for alle sikkerhet og rette.

en thr. Sonnet 4.5 som sin”mest justerte grensemodell ennå”. Selskapets offisielle systemkort beskriver omfattende sikkerhetsopplæring som har ført til betydelige reduksjoner i uønsket atferd som sykofancy, bedrag og strømsøkende.

Modellen blir utgitt under selskapets strenge AI-sikkerhetsnivå 3 (ASL-3) rammeverk. Dette inkluderer distribusjon av filtre designet for å oppdage og forhindre generering av potensielt farlige utganger, særlig de som er relatert til kjemiske, biologiske, radiologiske og kjernefysiske (CBRN) våpen.

Dette fokuset på sikkerhet er en direkte respons på bransjedelede bekymringer og har som mål å bygge tillit til bedriftskunder. Selskapet hevder Sonnet 4.5 er betydelig mindre utsatt for å be om injeksjonsangrep og andre sårbarheter som har plaget tidligere generasjoner av AI-modeller.

Navigering av et hyperkonkurransedyktig AI-landskap

lanseringen av Sonnet 4.5 skjer ikke i en vakuum. Det er et strategisk trekk i et hyperkonkurransedyktig marked. For bare uker siden lanserte Openai GPT-5-kode, en spesialisert modell for agentkoding. Produktledelsen, Alexander Embiricos, fremhevet sin adaptive intelligens, og sa:”GPT-5-kode kan bestemme fem minutter til et problem som den trenger å bruke en time.”

I mellomtiden demonstrerte Googles Gemini nylig overmenneskelig problemløsing på ICPC-verdensfinalen. Meta har også kommet inn i striden med sin kodeverdensmodell, en”nevral feilsøking”fokusert på å forstå kodelogikk i stedet for bare å skrive den.

Antropics strategi ser ut til å være todelt: konkurrere om rå ytelse mens han skiller seg på sikkerhet og utvikleropplevelse. Tidlige tilbakemeldinger fra partnere som Cursor og Windsurf er positiv.

Cursor’s CEO, Michael Truell, “We’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’e’er’ Med betydelige forbedringer på lengre horisontoppgaver,”mens Windsurfs administrerende direktør Jeff Wang kalte det”en ny generasjon av kodingsmodeller.”

For utviklere forblir prisingen uendret fra Claude Sonnet 4, til $ 3 per million inngang tokens og $ 15 per For å vise frem sin kraft, tilbyr Anthropic også en midlertidig forhåndsvisning av forskning kalt ‘Tenk deg med Claude’ for Max-abonnenter .

Categories: IT Info