Anthropic har lanserat Claude Sonnet 4.5, sin senaste AI-modell, som företaget hävdar är världens bästa och säkraste modell för kodning och byggande komplexa mjukvaruagenter. Claude Sonnet 4.5 demonstrerar modernaste prestanda på viktiga branschens riktmärken.

Modellen överträffar sina föregångare och rivaler som OpenAI: s GPT-5 och Googles Gemini. Lanseringen innehåller stora uppgraderingar till Anthropics utvecklarverktyg, till exempel en ny VS-kodförlängning och en agent SDK, som syftar till att möjliggöra mer sofistikerade, långvariga autonoma uppgifter.

Företaget betonar modellens förbättrade säkerhet och släpper ut den under strikt ASL-3-skydd till Mitigera risker och minska skadliga beteenden . Denna rörelse placerar det som en mer pålitlig och anpassad AI-partner för utvecklare i en snabbt eskalerande teknisk ras.

>>

Ett nytt riktmärke för AI-kodning och agentisk uthållighet

Anthropics påståenden om överhöghet stöds av en skiffer av imponerande mätvärden som placerar sonett 4.5 högst upp i flera viktiga branschledare.

företagets official announcement highlights its state-of-the-art performance on demanding evaluations like SWE-bench Verified, a benchmark that measures an AI’s ability to resolve real-world software engineering issues from GitHub repositories.

Modellen satte också en ny rekord på Osworld, en svit som testar en AI: s förmåga att utföra praktiska datoruppgifter i verkligheten.

Den uppnådde en poäng på 61,4 procent, ett betydande hopp från de 42,2 procent som innehas av sin föregångare, Sonnet 4, bara fyra månader tidigare. Denna prestanda placerar den framför konkurrenter som Googles Gemini 2.5 Pro och OpenAI: s GPT-5 på flera fronter, enligt riktmärken som delas av företaget.

Detta prestationsprång är inte bara inkrementellt; Det överträffar särskilt Anthropics egen dyrare flaggskeppsmodell, Opus 4.1. Genom att leverera överlägsna kapaciteter till samma prispunkt som den äldre sonnetten 4, gör Anthropic ett starkt fall för effektivitet och värde, att erbjuda utvecklare tillgång till toppnivåprestanda utan kostnadspremie.

utöver råa poäng, är en nyckeldifferentiator modellens omedvetet förbättrade uthållighet för autonomt arbete. Antropiska rapporterar att Sonnet 4.5 kan fungera på komplexa projekt med flera steg i över 30 timmar kontinuerligt.

Detta är ett monumentalt hopp från den ungefär sju timmars förmåga till Claude 4 opus, som redan ansågs vara ett genombrott när det lanserades i maj.

Detta är inte bara en teoretisk gräns. Under tidiga studier berättade antropisk AI-forskare David Hershey till TechCrunch att han såg på modellen inte bara bygga en applikation utan också stå upp databastjänster, köpa domännamn och utföra en SOC 2-säkerhetsrevision på sitt eget arbete.

sonnet 4.5 demonstrerar en ny nivå av praktiska, långhärda byråer som rör sig utöver isolerade taskar till full-cycle-projekt. visar också större bredd. Tidig feedback från experter inom ekonomi, lag, medicin och STEM fann att Sonnet 4.5 har dramatiskt bättre domänspecifik kunskap och resonemang än tidigare modeller.

Detta stöds ytterligare av dess starka prestanda på ett brett utvärdering av mätning av matematiska och resonemang. As Hershey noted, it is hard to capture Claude Sonnet 4.5’s performance on benchmarks alone, highlighting the model’s ability to tackle real-world, long-horizon challenges that go beyond simple code generation.

Empowering Developers with an Upgraded Toolkit

More than just a model upgrade, the Sonnet 4.5 launch is a significant expansion of Anthropics utvecklare ekosystem. Företaget har rullade ut en svit av kraftfulla nya verktyg och funktioner utformade för att göra byggnad med claude mer robust och autonomous, direkt adressering nyckelpunkter. Företagets populära kodningsagent. Det innehåller nu”kontrollpunkter”, en mycket efterfrågad funktion som automatiskt sparar kodtillståndet före varje förändring.

Detta gör att utvecklare omedelbart kan spola tillbaka till en tidigare version, uppmuntrar mer ambitiöst och utforskande arbete utan rädsla för oåterkalleliga fel. href=”https://marketplace.visualstudio.com/items?itemname=anthropic.claude-code”Target=”_ blank”> Native vs Code Extension , för närvarande i beta. Detta ger Claude Code: s kapacitet direkt in i IDE och erbjuder ett rikare, grafiskt gränssnitt med en dedikerad sidofält och realtid inline diffs.

Flytten riktar sig till utvecklare som föredrar att arbeta inom sin primära grafiska miljö framför en terminal.

för att lösa en av de största tekniska häckarna för långvariga AI-agenter-koncentrerat-konvertat-har introducerat en av de största tekniska häckarna för långvariga AI-agenter-koncentrer-konvertera-Conteopic har introducerat en av de största tekniska häckarna för långa ledande AI-agenter-koncentrer-CONTELIT-har introducerat

att lösa en av de största tekniska häckarna för långvariga AI-agenter-koncentrera-CONTELITIC. href=”https://www.anthropic.com/news/context-management”Target=”_ blank”> Avancerade sammanhangshanteringsverktyg .

“Context Editing”rensar automatiskt inaktuella verktygssamtal och resultat från konversationen, medan ett nytt”Memory Tool”gör det möjligt att lagra och njuta av kritiska information från ett filbaserat system som är över hela det. Tvåutsträckt tillvägagångssätt har en mätbar inverkan. Interna tester visade att kombinera dessa verktyg förbättrade agentens prestanda på komplexa uppgifter med 39% och minskade tokenförbrukningen med 84% i en 100-varv webbsökningsutvärdering, vilket gör att agenter kan slutföra arbetsflöden som annars skulle misslyckas.

Kanske mest betydelsefullt för avancerade användare, antropisk är Släpp Claude-agenten SDK . Detta är inte bara ett bibliotek; Det ger utvecklare tillgång till samma kärninfrastruktur som driver Claude Code. Det gör det möjligt att skapa anpassade agenter för specialiserade arbetsflöden, från ekonomisk efterlevnad till cybersäkerhet.

Denna strategi stöder direkt företagets långsiktiga vision. Som VD Dario Amodei tidigare sade:”Vi är på väg till en värld där en mänsklig utvecklare kan hantera en flotta av agenter, men jag tror att fortsatt mänskligt engagemang kommer att vara viktigt för kvalitetskontrollen…”Det nya SDK är ett grundläggande steg mot att göra den visionen till en verklighet för alla utvecklare. Sonnet 4.5 som sin”mest anpassade gränsmodell ännu”. Företagets officiella systemkort beskriver omfattande säkerhetsutbildning som har lett till betydande minskningar av oönskade beteenden som sycophancy, bedrägeri och maktsökande.

Modellen släpps under företagets strikta AI-säkerhetsnivå 3 (ASL-3) ram. Detta inkluderar distribution av filter som är utformade för att upptäcka och förhindra generering av potentiellt farliga utgångar, särskilt de som är relaterade till kemiska, biologiska, radiologiska och kärnkraftsvapen (CBRN). Företaget hävdar att Sonnet 4.5 är betydligt mindre benägna att snabba injektionsattacker och andra sårbarheter som har plågat tidigare generationer av AI-modeller.

Navigering av en hyperkonkurrenskraftig AI-landskap

lanseringen av Sonnet 4.5 inträffar inte i en vacuum. Det är ett strategiskt drag på en hyperkonkurrenskraftig marknad. För bara veckor sedan lanserade OpenAI GPT-5-CODEX, en specialiserad modell för agentisk kodning. Dess produktledare, Alexander Embiricos, framhöll sin adaptiva intelligens och konstaterade,”GPT-5-Codex kan besluta fem minuter till ett problem att det behöver spendera ytterligare en timme.”

Under tiden visade Google Gemini nyligen övermänsklig problemlösning vid ICPC-världsfinalerna. Meta har också gått in i striden med sin kodvärldsmodell, en”neural debugger”fokuserad på att förstå kodlogik snarare än att bara skriva den.

Anthropics strategi verkar vara tvåfaldig: konkurrera om råprestanda medan du skiljer på säkerhet och utvecklarupplevelse. Early feedback from partners like Cursor and Windsurf is positive.

Cursor’s CEO, Michael Truell, noted, “we’re seeing state-of-the-art coding performance from Claude Sonnet 4.5, with significant improvements on longer Horizon-uppgifter,”Medan Windsurfs VD Jeff Wang kallade det”en ny generation av kodande modeller.”

För utvecklare, förblir prissättningen oförändrad från Claude Sonnet 4, till $ 3 per miljon inmatningstokens och $ 15 per miljon produktionstokens, vilket gör de nya kapaciteterna till en direkt uppgradering. För att visa upp sin kraft erbjuder Anthropic också en förhandsgranskning av tillfällig forskning som heter ‘Föreställ dig med Claude’ för max prenumeranter .

Categories: IT Info