Az Anthropic piacra dobja a Claude Opus 4.5-öt 80,9%-os SWE-bench-pontszámmal és 66%-os áreséssel

Az Anthropic a mai napon kiadta a Claude Opus 4.5-öt, megszerezve az iparág legjobb kódolási pontszámát, és jelentős építészeti váltást vezet be az alacsonyabb költségek felé.

A bemeneti token árának 66%-os csökkentésével 5 dollárra, valamint a „Tool Search” alkalmazásával, hogy 85%-kal csökkentse a környezeti költségeket. A vállalat közvetlenül megtámadja az autonóm gazdasági ügynököt.

A modell 80,9%-os pontszámot ér el az SWE-bench Verified rendszerben, ami a Google és az OpenAI közelmúltbeli kiadásaihoz képest szűken nyúlik vissza, és visszaszerzi a teljesítmény koronáját az összetett szoftverfejlesztési feladatokhoz.

The Benchmark Wars: Reclaiming the Crown

Az Opus 4.5 80,9%-os eredménnyel érkezik az SWE-bench Verified-re, amely az autonóm szoftverfejlesztési képességek értékelésének jelenlegi aranystandardja. A pontszám felülmúlja a versenyt, a Google Gemini 3 Pro piacra dobását 76,2%-kal, a GPT-5.1-Codex-Maxot pedig 77,9%-kal.

Belső értékelések szerint a modell már magasabb pontszámot ér el, mint az emberi jelöltek az Anthropic saját mérnöki tesztjein. „Az Opus 4.5 előrelépést jelent abban, hogy az AI-rendszerek mit tudnak tenni, és a munkavégzést érintő nagyobb változtatások előnézete” – szögezte le a vállalat közleményében.

A költség és a képesség egyensúlyának megteremtése érdekében egy új „erőfeszítés” paraméter lehetővé teszi a fejlesztők számára, hogy az API-hívások során dinamikusan módosítsák a modell érvelési mélységét. „Közepes” erőfeszítéssel az Opus 4.5 megfelel az előző Sonnet 4.5 modell csúcsteljesítményének, de 76%-kal kevesebb kimeneti tokent fogyaszt.

Az automatizált problémamegoldás plafonját megdöntve a „nagy” erőkifejtés 4,3 százalékponttal meghaladja a Sonnet 4.5 képességeit. A november aktív hónapnak bizonyult a mesterséges intelligencia terén: mindhárom nagyobb laboratórium 18. és 24. között vezette be zászlóshajó kódolási modelljét.

A gazdasági változás: árképzés és építészet

A költséges „okosító” modellek életképességével kapcsolatos vállalati aggodalmak kezelése érdekében az Anthropic 5 millió dollárral növelte a modelleket. és 25 dollár millió kimeneti tokenenként.

Az előző Opus-generációhoz (15 USD/75 USD) képest az új árfolyam 66%-os kedvezményt biztosít, amint azt a Bemutatkozik a Claude Opus 4.5 architektúrája

, the Under tackles. „Context Bloat” probléma. Hagyományosan több mint 50 eszközdefiníció betöltése körülbelül 55 000 tokent fogyaszthat el, mielőtt egyetlen felhasználói lekérdezést feldolgoznának.

A speciális eszközhasználat dokumentációja szerint az új:“ rendszer alapvetően megváltozik az új:“ rendszer helyett. Az összes eszközdefiníciót előre betöltve az Eszközkereső eszköz igény szerint fedezi fel az eszközöket. Claude csak azokat az eszközöket látja, amelyekre ténylegesen szüksége van az aktuális feladathoz.”

“Ez 85%-os csökkenést jelent a token használatában, miközben a teljes eszköztárhoz való hozzáférést is megőrzi a belső tesztelés, amely jelentős pontosságot mutatott az MCP-értékelésekben, amikor a nagy eszköztárral dolgozott.”

(PTC), amely lehetővé teszi a modell számára, hogy hangszerelési kódot írjon, ahelyett, hogy a chat-alapú körfolyamatokra hagyatkozna.

A műszaki dokumentáció tovább magyarázza a PTC mechanikáját:

„Ahelyett, hogy Claude egyenként kérne eszközöket, és minden eredmény visszakerül a kontextusába, Claude kódot ír, amely több eszközt hív meg, és szabályozza a kontextus információit.”

“Claude kiválóan tud kódot írni, és azáltal, hogy lehetővé teszi, hogy Pythonban fejezze ki a hangszerelési logikát a természetes nyelvű eszközhívások helyett, megbízhatóbb, pontosabb vezérlési folyamatot kap.”

A PTC kiküszöböli az oda-vissza következtetési lépések szükségességét minden egyes eszközhívásnál, jelentősen csökkentve a késleltetést. Kiterjedt adatkészletek, például 200 KB nyers költségadatok feldolgozása életképessé válik, mivel a modell csak az 1 KB-os végeredményt adja vissza a kontextusablakba.

„A hatékony ügynökök létrehozásához korlátlan számú eszköztárral kell dolgozniuk anélkül, hogy minden definíciót előzetesen kontextusba kellene illeszteni” – jegyezte meg az Anthropic Engineering Team.

Safety System, Excel,Excel/Excel:

Az alapmodell mellett a „Claude Code” béta verzióból általános elérhetővé vált, és teljes asztali alkalmazást kínál a fejlesztői munkafolyamatokhoz. Az új integrációk lehetővé teszik a modell számára, hogy közvetlenül vezérelje a Chrome böngészőt, így a szöveggeneráláson túl az aktív kutatás és a feladatok végrehajtása felé halad.

[beágyazott tartalom]

A pénzügyi modellezést megcélzó dedikált Excel-integráció lehetővé teszi a modell számára, hogy több ezer sort tartalmazó táblázatokat kezeljen.

Dianne Na Penn, az Anthropic kutatási részlegének termékmenedzsment-vezetője hangsúlyozta ennek a képességnek a fontosságát: „A megfelelő részletek ismerete nagyon fontos a hosszabb kontextusablak mellett.”

[beágyazott tartalom]

A biztonság továbbra is a kiadás központi pillére. A Claude Opus 4.5 rendszerkártya a kémiai, biológiai, radiológiai és nukleáris (CBRN) kockázatok mérséklésére irányuló jelentős befektetéseket emeli ki.

A rendszerkártya kifejezetten körvonalazza a az eddig kiadott legrobusztusabban igazított modell, és gyanítjuk, hogy a legjobban igazított határmodell bármely fejlesztőtől.”

“Az Opus 4.5-öt nehezebb átverni azonnali befecskendezéssel, mint bármely más határmodell az iparágban.”

Piac valóság: Az ügynökkorszak

a Google elindítása, a szöveg Az OpenAI és az Anthropic egyszerre fordul az autonóm ügynökök felé. A narratívák a „csevegőrobotokról” az „ügynökökre” változtak, amelyek több mint 24 órán keresztül képesek ellátni feladatokat.

Míg az Anthropic vezet a nyers benchmarkokban (80,9%), a marzs nagyon vékony, kevesebb mint 5 százalékpont választja el a három legjobb versenyzőt. Az új architektúrában van egy kulcsfontosságú kompromisszum: a „Tool Search” olyan keresési lépést vezet be, amely növelheti a késleltetést ahhoz képest, hogy az összes eszközt kontextusban előre betöltik.

Eltérően az OpenAI Windows-natív, Codex-Max-szal végzett optimalizálásától, az Anthropic platform-agnosztikus asztali megközelítésre tippel. A memóriakezelés új csatatérként jelent meg, ahol az OpenAI a „tömörítést”, az Anthropic pedig a „Tool Search” alkalmazást használja, hogy megoldja ugyanezt a kontextusablak szűk keresztmetszetét.

Az Anthropic piacra dobja a Claude Opus 4.5-öt 80,9%-os SWE-bench-pontszámmal és 66%-os áreséssel

Published by All Things Windows on November 24, 2025

The Benchmark Wars: Reclaiming the Crown

A gazdasági változás: árképzés és építészet

Piac valóság: Az ügynökkorszak

IT Info

Az OpenAI elindítja a GPT-5 Mini által üzemeltetett „Research-First” vásárlási ügynököt, amely szünetelteti az azonnali fizetést

IT Info

Sam Altman és Jony Ive Break Silence az OpenAI-eszközön: a prototípus elkészült, „kevesebb, mint két év” a megjelenésig

IT Info

A Vizio Smart TV távirányító programozása

Az Anthropic piacra dobja a Claude Opus 4.5-öt 80,9%-os SWE-bench-pontszámmal és 66%-os áreséssel

Published by All Things Windows on November 24, 2025

The Benchmark Wars: Reclaiming the Crown

A gazdasági változás: árképzés és építészet

Piac valóság: Az ügynökkorszak

Related Posts

IT Info

Az OpenAI elindítja a GPT-5 Mini által üzemeltetett „Research-First” vásárlási ügynököt, amely szünetelteti az azonnali fizetést

IT Info

Sam Altman és Jony Ive Break Silence az OpenAI-eszközön: a prototípus elkészült, „kevesebb, mint két év” a megjelenésig

IT Info

A Vizio Smart TV távirányító programozása