A

Antropic hivatalosan kiadta új zászlóshajóját, az AI, a Claude Opus 4.1-et, amely egy növekményes frissítés, amelynek célja a kódolás és az érvelési teljesítmény növelése. Az augusztus 5-én elindított modell a fizetett felhasználók és a fejlesztők számára elérhető az Antropic API-ján, az Amazon Bedrock-on és a Google’s Vertex AI-n keresztül. A Rendszerkártya -ban az antropikus a frissítést szándékos, mért lépésként. Fokozza a képességeket anélkül, hogy átlépne a „nevezetesen képes” küszöböt, amely teljes új biztonsági áttekintést vált ki. Az árazás továbbra is azonos az elődjével , jelezve a Claude Opus 4 közvetlen cseréjét és a turbulens időszak után a piaci stabilitás felé.

“>”>”>”>”>”>”>”>”>”>”>”>”>”>

A kódolás és érvelés mért ugrása

A Claude Opus 4.1 címsora a szignifikánsan fokozott teljesítmény a komplex, nagy értékű feladatokban, különös tekintettel a vállalati és fejlesztői munkafolyamatok számára. Antropic’s Bejelentés Azonnal egy új korszerű pontszámot mutatnak be, 74,5%-ot. Értékelés , egy igényes referenciaérték, amely teszteli az AI azon képességét, hogy a Github tárolóktól a valós kérdéseket önállóan megoldja. Ezt a kódolási bátorsággátlást az ügynöki keresés, a mélyreható kutatás és az adatelemzési készségek által meghatározott javítások egészítik ki, amelyek a modellt a kifinomult, többlépcsős problémamegoldás közvetlen versenytársának helyezik el. A bejelentés szerint a GitHub megfigyelte, hogy „különösen figyelemre méltó teljesítménynövekedést kapott a többfájl-kód-refaktorozásban”. A Rakuten Group dicsérte a modell pontosságát, megjegyezve, hogy „kitűnő a pontos korrekciók meghatározásában a nagy kódbázisokon belül felesleges beállítások elvégzése vagy hibák bevezetése nélkül”. Eközben a Windsurf cég arról számolt be, hogy az OPUS 4.1 teljes szórási javulást hajtott végre az elődje felett a junior fejlesztőjükben, amely jelentős és számszerűsíthető képességgel jár. A kiegészítés árnyaltabb teljesítményprofilt tár fel. Míg a modell egyértelmű növekményes javulást mutat olyan területeken, mint a kibervédelem-a 35 cybench kihívásból 18-ból 18-at oldja meg az Opus 4-hez képest, a nyereség nem egyetemes. A belső AI kutatási feladatok csomagján az OPUS 4.1 kissé alacsonyabb teljesítményt mutatott, mint elődje olyan területeken, mint a kernel optimalizálás és a szöveges megerősítés tanulás. Ez azt sugallja, hogy a fejlesztések inkább a célzott finomítások eredményei, nem pedig az egységes, átfogó képesség áttörése. Célterületein a Claude Opus 4.1 vezető pontszámokat ad, különösen az ügynöki kódolásban, ahol a Swe-Padon 74,5% és 43,3% a terminálpadon felülmúlja mind elődeit, mind a kulcsfontosságú riválisokat, mint például az Openai O3 és a Google Gemini 2.5 Pro. Ez arra utal, hogy szándékosan összpontosít a fejlesztő és a vállalati piac rögzítésére, ahol ezek a képességek kiemelkedően fontosak. A posztgraduális szintű érvelés (GPQA Diamond) alapján az OPUS 4.1 80,9%-a tiszteletreméltó, de mind a Gemini 2,5 Pro (86,4%), mind az O3 (83,3%) nyomvonalai. Figyelemre méltó különbség merül fel a középiskolai matematikai versenyeken (AIME 2025), ahol 78,0%-a több mint tíz ponttal elmarad a versenytársaktól, akik közel 89%-ot szereznek. Hasonlóképpen, a vizuális érvelésben (MMMU) az OPUS 4.1 javul az elődjén, de nem fogja el a vezetőket. src=”adatok: image/svg+xml; nitro-üres-id=mty0mdoxnjez-1; base64, phn2zyb2awv3qm94psiwidagmti4mcaxmdi2iiiiiii B3AWR0AD0IMTI4MCIGAGVPZ2H0PSixMDI2IIB4BWXUCZ0IAHR0CDOVL3DY53DY53MY5VCMCVMC9ZDMCIPJWVC3ZNPG==”>

A „célzott finomítási” stratégiát támogató legmegfelelőbb adatpont a tau-padról származik az ügynöki eszközhasználathoz. Míg az OPUS 4.1 javul a „kiskereskedelmi” feladatban, a „légitársaság” feladatának teljesítménye valójában 56,0%-ra csökken, nemcsak a közvetlen elődjének, az OPUS 4-ről (59,6%), hanem a kevésbé erős Claude Sonnet 4-ről (60,0%). Ez a vegyes eredmény határozottan azt jelzi, hogy az antropikus prioritást élvez és optimalizált a konkrét képességekhez, és másokban történő kompromisszumokat fogadott el a határ áthelyezésére, ahol úgy véli, hogy a legfontosabb. Ahogyan Holger Mueller, a Constellation Research elemzője megjegyezte a vállalat korábbi lépéseit, „az LLM gyártói a paaS rétegbe dolgoznak. Az antropikus nagyszerű példa erre a lépésre a legújabb kiadásával.” Ez a nyers modell szolgáltatótól a Platform mint szolgáltatás (PAAS) szállítójának fejlődése, amelynek célja a ragadós fejlesztői ökoszisztéma létrehozása, kritikus fontosságú a hosszú távú növekedés szempontjából, és stratégiai környezetet biztosít e célzott teljesítménynövelésekhez. A kísérő Rendszerkártya-kiegészítés központi szerepet játszik ebben a narratívában. Megerősíti, hogy a modellt a meglévő, elővigyázatossági ASL-3 biztonsági szabvány szerint alkalmazzák, amelyet először a Claude 4-re alkalmaznak. Az antropikus politika kimondja: „Ha egy új vagy meglévő modell a„ nevezetesen képes “szabvány alatt van, akkor nincs szükség további tesztelésre”, egy olyan záradék, amely lehetővé teszi a gyorsabb, iteratív javításokat. Az antropikus megpróbálja bemutatni egy fenntarthatóbb utat.

A rendszerkártya megállapításai árnyalt képet mutatnak. Míg a „félelmetes emberi visszaélés”-vel való együttműködés kb. 25%-kal esett vissza, a modell enyhe regressziót mutatott a jutalmazási feladatok során. Ez azt jelenti, hogy hajlamosabb lehet az okos megoldások megtalálására, ahelyett, hogy megoldanák a probléma alaplogikáját. Ez kiemeli a folyamatban lévő kihívásokkal foglalkozó laboratóriumok szembesülését, hogy a modellek betartják a felhasználó utasításainak szellemét, nem csak a betűjét. 2025 májusában, amelyet egy kialakuló „bejelentési képesség” felfedezése rontott. Abban az időben az antropikus tisztázta a viselkedést csak erősen ellenőrzött tesztekben, nem pedig normál használatban. Az antropikus főtudós, Jared Kaplan, Időbe fogadták. Lehetséges.”

Az új modell indítása, az Antropic új biztonsági keretével párosítva az AI-ügynökök számára, úgy tűnik, hogy a stabilitás kidolgozására szolgál. Ez egy időben történő mozgatás egy olyan piacon, amelyet a legutóbbi AI hibák megráztak, például