Antropic on julkaissut Claude Sonnet 4.5: n, sen viimeisimmän AI-mallin, jonka yritys väittää olevan maailman paras ja turvallisin malli koodaus-ja rakennuskompleksien ohjelmisto-aineisiin. Claude Sonnet 4.5 osoittaa huipputeknisen suorituskyvyn avainteollisuuden vertailuarvoilla. Käynnistys sisältää merkittäviä päivityksiä antropisin kehittäjätyökaluihin, kuten uuteen VS-koodilaajennukseen ja agentti SDK: hen, joiden tarkoituksena on mahdollistaa hienostuneemmat, pitkäkestoiset itsenäiset tehtävät. href=”https://www.anthropic.com/claude-sonnet-4-5-system-card”Target=”_ tyhjä”> lieventää riskiä ja vähentää haitallisia käyttäytymisiä . Tämä siirto asettaa sen luotettavammaksi ja linjattuksi AI-kumppaniksi kehittäjille nopeasti lisääntyvässä teknologisessa rodussa.
Uusi AI-koodauksen ja agentisen kestävyyden vertailuarvo
antropisen ylivallan väitteet tukevat vaikuttavien mittareiden liuskekivi, joka asetti Sonnet 4.5: n useiden keskeisten alan levilautojen kärjessä.
yrityksen virallinen ilmoitus korostaa sen suorituskyvyn suorituskykyä koskevia arviointeja, kuten Swe-Bench vahvistettu. Vertailutiedot, jotka mittaavat AI: n kyvyn
P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P> P;
Malli asetti myös uuden tietueen OSWorldiin, sviittiin, joka testaa AI: n kykyä suorittaa käytännöllisiä, reaalimaailman tietokoneen tehtäviä. Tämä esitys asettaa sen edelle kilpailijoita, kuten Googlen Gemini 2.5 Pro ja Openai’s GPT-5 useilla rintamilla, toteaa, että yrityksen jakamien vertailuarvojen mukaan. Se ylittää huomattavasti antropisen oman kalliimman lippulaivamallin, OPUS 4.1. Toimittamalla erinomaiset ominaisuudet samaan hintapisteeseen kuin vanhempi Sonnet 4, antropinen tekee vahvan tehokkuuden ja arvon tapauksen, joka tarjoaa kehittäjille pääsyn ylimmän tason suorituskykyyn ilman kustannuspalkkiota. Antropinen raportoi, että Sonnet 4.5 voi toimia monimutkaisissa, monivaiheisissa projekteissa yli 30 tunnin ajan jatkuvasti.
Tämä on monumentaalinen hyppy Claude 4 Opus: n suunnilleen seitsemän tunnin kyvystä, jota pidettiin jo läpimurrona, kun se käynnistyi toukokuussa.
Tämä ei ole vain teoreettinen raja. Varhaisten kokeiden aikana antropinen AI-tutkija David Hershey kertoi TechCrunchille, että hän tarkkaili mallia paitsi rakentavan sovelluksen rakentamista, vaan myös seisomaan tietokantapalveluita, ostamaan verkkotunnuksia ja suoritaan Soc 2-turvatarkastuksen omalla työllään. leveys. Rahoitus-, laki-, lääketiede-ja STEM-asiantuntijoiden varhainen palaute havaitsi, että Sonnet 4.5: llä on dramaattisesti parempi aluekohtainen tieto ja päättely kuin aiemmissa malleissa.
Tätä tukee edelleen sen vahva suorituskyky laajalla arviointivalikoimalla, joka mittaa matemaattisia ja perusteluja. Kuten Hershey totesi, Claude Sonnet 4.5: n suorituskykyä pelkästään vertailuarvoihin on vaikea vangita, korostaen mallin kykyä puuttua reaalimaailmaan, pitkäaikaisia haasteita, jotka ylittävät yksinkertaisen koodin luomisen. Antropisin kehittäjäekosysteemi. Yrityksellä on levitettiin tehokkaiden uusien työkalujen ja ominaisuuksien, jotka on suunniteltu tekemään rakentamisesta Clauden tukevamman ja autonomisen, osoitettuna suoraan avainkehittäjän kipupisteisiin. yrityksen suosittu koodausasiamies. Se sisältää nyt”tarkistuspisteet”, erittäin pyydetty ominaisuus, joka tallentaa kooditilaa automaattisesti ennen jokaista muutosta.
Tämän avulla kehittäjät voivat välittömästi kelata aikaisempaan versioon, rohkaisemalla kunnianhimoisempaa ja tutkittavampaa työtä ilman pelkoa palauttamattomista virheistä. href=”https://marketplace.visualstudio.com/items?itemname=anthropic.claude-code”Target=”_ tyhjä”> Native vs koodilaajennus , tällä hetkellä beeta. Tämä tuo Claude Codein ominaisuudet suoraan IDE: hen tarjoamalla rikkaamman, graafisen rajapinnan omistettuun sivupalkkiin ja reaaliaikaiseen inline-eroon.
Siirto palvelee kehittäjiä, jotka mieluummin työskentelevät ensisijaisessa graafisessa ympäristössään terminaalissa. href=”https://www.anthropic.com/news/context-management”Target=”_ tyhjä”> edistyneiden kontekstinhallintatyökalut . Kaksisuuntaisella lähestymistavalla on mitattavissa oleva vaikutus. Sisäiset testit osoittivat, että näiden työkalujen yhdistäminen paransi agenttien suorituskykyä monimutkaisissa tehtävissä 39% ja vähensi tokenin kulutusta 84% 100-käännöksen verkkohaun arvioinnissa, jolloin edustajat voivat suorittaa työnkulut, jotka muuten epäonnistuvat. href=”https://anthropic.com/engineering/building-agents Tämä ei ole vain kirjasto; Se antaa kehittäjille pääsyn samaan ydininfrastruktuuriin, joka valtaa Claude-koodia. Se mahdollistaa räätälöityjen edustajien luomisen erikoistuneille työnkulkuille taloudellisesta noudattamisesta kyberturvallisuuteen.
Tämä strategia tukee suoraan yrityksen pitkän aikavälin visiota. Kuten toimitusjohtaja Dario Amodei totesi aiemmin, “olemme menossa maailmaan, jossa ihmiskehittäjä voi hallita edustajien laivastoa, mutta mielestäni jatkuvan ihmisen osallistumisen tulee olla tärkeä laadunvalvonnan kannalta…”Uusi SDK on perustava askel kohti tämän vision todellisuutta kaikille kehittäjille. sen”eniten linjattuja rajamallia”. Yrityksen virallinen järjestelmäkortti kuvaa laajaa turvallisuuskoulutusta, joka on johtanut huomattavasti epätoivottujen käyttäytymisten, kuten sykofanssin, petoksen ja voimanhakujen, vähentymiseen.
Malli julkaistaan yrityksen tiukassa AI-turvallisuustason 3 (ASL-3) kehyksessä. Tähän sisältyy potentiaalisesti vaarallisten tuotoksien, erityisesti kemiallisten, biologisten, radiologisten ja ydinaseiden (CBRN) aseisiin liittyvien potentiaalisesti vaarallisten tulosteiden havaitsemiseksi ja estämiseksi.
Tämä turvallisuuteen keskittyminen on suora vastaus teollisuudenlaajuisiin huolenaiheisiin ja pyrkii luomaan luottamusta yritysasiakkaiden kanssa. Yhtiö väittää, että Sonnet 4.5 on huomattavasti vähemmän alttiita injektiohyökkäysten ja muiden AI-mallien aikaisempien sukupolvien vaivanhaavoittuvuuksille. Se on strateginen siirto hyperkilpailuilla. Vain viikkoja sitten Openai julkaisi GPT-5-CODEXin, erikoistuneen mallin agentisen koodauksen suhteen. Sen tuotejohto Alexander Embiricos korosti sen mukautuvaa älykkyyttä ilmoittaen: “GPT-5-CODEX voi päättää viiden minuutin ongelmaan, joka sen on vietettävä vielä tunnin.”
Googlen Gemini osoitti äskettäin ylimääräistä ongelmanratkaisua ICPC-maailman finaalissa. Meta on myös kirjoittanut Frayn Code World-mallillaan, “Neuraalisen virheenkorjauksen”, joka keskittyy koodilogiikan ymmärtämiseen sen sijaan, että se vain kirjoittaisi.
antropisen strategia näyttää olevan kaksinkertainen: kilpaile RAW-suorituskyvystä erottaen samalla turvallisuus-ja kehittäjäkokemuksen. Varhainen palaute kumppaneilta, kuten kohdistin ja Windsurf, on positiivinen.
Kohdistimen toimitusjohtaja Michael Truell, Huomatetussa ,”näemme edelleen valtiota. Horizon-tehtävät,”Vaikka Windsurfin toimitusjohtaja Jeff Wang kutsui sitä”uuden sukupolven koodausmalleja.”Antropic tarjoaa sen voiman esittelyn myös väliaikaisen tutkimuksen esikatselun, nimeltään ‘Kuvittele Claudella’Max-tilaajille .