Antropic on virallisesti julkaissut uuden lippulaiva AI, Claude Opus 4.1, inkrementaalisen päivityksen, joka on suunniteltu parantamaan koodausta ja päättelyä. 5. elokuuta käynnistetty malli on nyt maksettujen käyttäjien ja kehittäjien saatavana Antropisin sovellusliittymän, Amazon Bedrockin ja Googlen Vertex AI: n kautta.
Julkaisu seuraa viimeaikaisia vuotoja ja uutta yrityksen laajuista AI-turvallisuutta varten. Järjestelmäkortti , antropinen kehys on päivitys tarkoituksellisena, mitattuna askeleen eteenpäin. Se parantaa ominaisuuksia ylittämättä”erityisesti kykenevämpää”kynnysarvoa, joka laukaisi täydellisen uuden turvallisuuskatsauksen.
Tämä strategia korostaa sen pyrkimyksiä tasapainottaa innovaatioita vastuullisen käyttöönoton kanssa. Hinnoittelu pysyy identtinen edeltäjänsä kanssa , mikä merkitsee Claude Opus 4: n suoran korvaamista ja siirtyä kohti markkinoiden vakautta turbulentin jälkeen.
Mitattu koodauksen ja päättelyn hyppy
Claude Opus 4.1: n otsikkoominaisuus on sen merkittävästi parantunut suorituskyky monimutkaisissa, arvokkaissa tehtävissä, etenkin yrityksen ja kehittäjän työnkulkujen kannalta tärkeitä. antropisen ilmoitus Trusoi heti uuden State-the-the-Art-pisteen 74,5% , vaativa vertailuarvo, joka testaa AI: n kykyä ratkaista itsenäisesti GitHub-arkistojen reaalimaailman ongelmat. Tätä koodauskyvyn hyppyä täydennetään agentisen haun, perusteellisen tutkimuksen ja data-analyysitaitojen ilmoitetuilla parannuksilla, mallin sijoittamisessa suoran, monivaiheen ongelmanratkaisun välittömänä kilpailijana. Ilmoituksen mukaan Github havaitsi, että”erityisen merkittäviä suorituskyvyn voittoja moni-koodin refaktoroinnissa”. Rakuten Group kiitti mallin tarkkuutta ja huomautti, että se”on erinomainen tarkkojen korjausten määrittämisessä suurten koodipasien sisällä tekemättä tarpeettomia säädöksiä tai ottamatta virheitä”. Samaan aikaan yritys Windsurf kertoi, että OPUS 4.1 antoi täydellisen standardin poikkeaman parannuksen edeltäjänsä verrattuna heidän juniori-kehittäjän vertailuarvoon, joka on merkittävä ja kvantifioitavissa oleva kyvyn hyppy. Lisäys paljastaa vivahteellisemman suorituskykyprofiilin. Vaikka malli osoittaa selkeitä inkrementaalisia parannuksia tietoverkon puolustuksen kaltaisilla alueilla-18 35: stä Cybench-haasteesta verrattuna OPUS 4: n 16: een-voitot eivät ole yleisiä. Sisäisten AI-tutkimustehtävien sarjassa OPUS 4.1 osoitti hiukan alhaisempaa suorituskykyä kuin edeltäjänsä sellaisilla alueilla, kuten ytimen optimointi ja tekstipohjainen vahvistusoppiminen. Tämä viittaa siihen, että parannukset ovat seurausta kohdennetuista hienostuneista kuin yhtenäisestä, kokonaisvaltaisesta kyvyn läpimurtosta. Kohdealueilla Claude Opus 4.1-viestit johtavat tulokset, etenkin agenttisessa koodauksessa, jossa sen 74,5% SWE-Benchissä ja 43,3% päätepesäpäästöllä sekä edeltäjillään että keskeisissä kilpailijoissa, kuten Openain O3 ja Googlen Gemini 2.5 Pro. Tämä viittaa tarkoitukselliseen keskittymiseen kehittäjä-ja yritysmarkkinoiden sieppaamiseen, joilla nämä ominaisuudet ovat ensiarvoisen tärkeitä.
tarina on kuitenkin erilainen yleisissä päättelyissä ja erikoistuneissa tietoalueilla. Tutkinnon suorittaneiden tason päättelyssä (GPQA Diamond) OPUS 4.1: n 80,9%on kunnioitettava, mutta polut molemmat Gemini 2,5 Pro (86,4%) että O3 (83,3%). Lukion matematiikkakilpailuissa (Aime 2025) ilmenee huomattavampi aukko, jossa sen 78,0% on yli kymmenen pistettä jäljessä kilpailijoistaan, jotka saavat lähes 89%. Samoin visuaalisessa päättelyssä (MMMU) OPUS 4.1 paranee edeltäjänsä kanssa, mutta ei tarttu johtajiin.
Sanovin datapiste, joka tukee “kohdennettuja hienosäätöä”-strategiaa, tulee tau-benchistä agentisen työkalujen käyttöön. Vaikka OPUS 4.1 parantaa “vähittäiskaupan”tehtävää, sen suorituskyky”lentoyhtiö”-tehtävässä laskee tosiasiallisesti 56,0%: iin, mikä jää taaksepäin sen suoran edeltäjän, Opus 4: n (59,6%), mutta myös vähemmän voimakkaan Claude Sonnet 4 (60,0%). Tämä sekoitettu tulos osoittaa voimakkaasti, että antropinen on priorisoinut ja optimoitu erityisiin ominaisuuksiin, hyväksymällä muissa kompromisseja työntääkseen rajaa, jossa sillä on merkitystä eniten.
Antropiikat keskittyvät käytännön arvokkaisiin taitoihin heijastavat laajempaa teollisuuden suuntausta ja yrityksen omaa strategista kehitystä. Kuten analyytikko Holger Mueller, Constellation Research totesi yrityksen aikaisemmista liikkeistä, “LLM-myyjät työskentelevät pinolla PAAS-kerrokseen. Antropinen on loistava esimerkki tästä muutoksesta viimeisimmällä julkaisullaan.”Tämä evoluutio raa’asta mallin tarjoajasta alustaksi (PAAS) myyjänä, jonka tavoitteena on luoda tahmea kehittäjäekosysteemi, on kriittinen pitkäaikaiselle kasvulle ja tarjoaa strategisen kontekstin näille kohdennettuille suorituskyvyn lisäyksille. Mukana oleva Järjestelmäkortin lisäys on keskeinen tässä kertomuksessa. Se vahvistaa, että malli on otettu käyttöön nykyisen, varotoimenpiteen ASL-3-turvallisuusstandardin mukaisesti, jota sovelletaan ensin Claude 4: een.
Asiakirja selventää, että koska päivitys on asteittainen, se ei vaatinut täydellistä, uutta turvallisuusarviointia yrityksen vastuullisen skaalauskäytännön (RSP) mukaisesti. Antropisen politiikan mukaan “Jos uusi tai olemassa oleva malli on alle” Erityisesti kykenevämmän “standardin, lisätestaus ei ole välttämätöntä,”lauseke, joka sallii nopeamman, iteratiivisen parannuksen. Antropinen yrittää osoittaa kestävämmän polun.
Järjestelmäkortin havainnot esittävät vivahteisen kuvan. Vaikka yhteistyö “räikeän ihmisen väärinkäytön”kanssa laski noin 25%, malli osoitti palkkiotehtävien vähäistä regressiota. Tämä tarkoittaa, että voi olla alttiimpaa löytää älykkäitä kiertotapoja sen sijaan, että ratkaista ongelman ydinlogiikka.
“mahdoton”koodaustehtävissä, esimerkiksi OPUS 4.1: n taipumus”hakkeroida”ratkaisu oli 52%, mikä on pieni nousu Opus 4: n 51%: sta. Tämä korostaa meneillään olevia haastelaboratorioita varmistaakseen, että malleja noudattaa käyttäjän ohjeiden henkeä, ei vain kirjettä.
kiistanalaisuudesta jatkuvuuteen: voimakkaan edeltäjän
Opus 4.1: n laukaisun vaihtaminen on myös strateginen siirto kääntääksesi kiistat, jotka ympäröivät CLAUDE 4. sen edeltäjästään toukokuussa 2025, jota herätti esiin nouseva”väärinkäyttäjä”-ominaisuuden löytäminen.
kyseinen ominaisuus, jossa AI saattaa ryhtyä”erittäin rohkeaan toimintaan”, jos se havaitsisi väärinkäytökset, herätti kovaa takaiskua kehittäjiltä. Tuolloin antropinen selvensi käyttäytymistä havaittiin vain erittäin hallittuissa testeissä eikä normaalissa käytössä. Anthropic’s Chief Scientist, Jared Kaplan, admitted to TIME that their modeling showed “you could try to synthesize something like COVID or a more dangerous version of the flu—and basically, our modeling suggests that this might Ole mahdollista.”
Uuden mallin lanseeraus, pariksi Antropisin uuden AI-agenttien turvallisuuskehyksen kanssa, näyttää olevan suunniteltu projisoimaan vakautta. Se on ajankohtainen muutos viimeisimpien AI-epäonnistumisten ravistetuilla markkinoilla, kuten