Antropic ka lëshuar zyrtarisht flamurin e saj të ri AI, Claude Opus 4.1, një azhurnim shtesë i krijuar për të rritur kodimin dhe performancën e arsyetimit. Nisur në 5 gusht, modeli tani është në dispozicion për përdoruesit e paguar dhe zhvilluesit përmes API të Antropic, Amazon Bedrock dhe Vertex AI të Google. Në karta e sistemit , kornizat antropike e kornizojnë azhurnimin si një hap të qëllimshëm, të matur përpara. Ai rrit aftësitë pa kaluar pragun”veçanërisht më të aftë”që do të shkaktojë një përmbledhje të plotë të sigurisë.
Kjo strategji nënvizon përpjekjen e saj për të balancuar inovacionin me vendosjen e përgjegjshme. Prmimi mbetet identik me paraardhësin e tij , duke sinjalizuar një zëvendësim të drejtpërdrejtë për Claude Opus 4 dhe një lëvizje drejt stabilitetit të tregut pas një periudhe të turbullt. src=”të dhëna: imazh/svg+xml; nitro-impty-id=mtyzntoxmzaz-1; base64, phn2zyb2awv3qm94psiwidagmti4mca3mj AiiHdpZHropsixmjgwiibozwlnahq9iJCymcigEg1Sbnm9imH0dha6ly93d3cudzmUB3JnlziWmdavc3znij48l3n2zz4=”>
Një kërcim i matur në kodim dhe arsyetim
Karakteristika e titullit të Claude Opus 4.1 është performanca e tij e përmirësuar ndjeshëm në detyra komplekse, me vlerë të lartë, veçanërisht ato thelbësore për ndërmarrjet dhe punët e zhvilluesve. Njoftimi i Antropik Vlerësimi , Një pikë referimi që teston aftësinë e një AI për të zgjidhur në mënyrë autonome çështjet e botës reale nga depot e GitHub. Kjo kërcim në aftësinë e kodimit plotësohet nga përmirësime të deklaruara në kërkimin agjent, hulumtimin e thelluar dhe aftësitë e analizës së të dhënave, duke e pozicionuar modelin si një konkurrent i drejtpërdrejtë për zgjidhjen e sofistikuar, me shumë hapa. Sipas njoftimit, GitHub vëzhgoi”fitime veçanërisht të dukshme të performancës në rindërtimin e kodit me shumë skedarë”. Rakuten Group vlerësoi saktësinë e modelit, duke theksuar se”shkëlqen në përcaktimin e korrigjimeve të sakta brenda bazave të mëdha të kodeve pa bërë rregullime të panevojshme ose prezantimin e gabimeve”. Ndërkohë, firma Windsurf raportoi se Opus 4.1 dha një përmirësim të plotë të devijimit standard mbi paraardhësin e tij në standardin e tyre të zhvilluesit të ri, një kërcim i rëndësishëm dhe i matshëm në aftësi. Shtesa Zbulon një profil më të nuancuar të performancës. Ndërsa modeli tregon përmirësime të qarta shtesë në fusha si mbrojtja kibernetike-zgjidhja e 18 nga 35 sfidat në internet në krahasim me 16 për Opus 4-fitimet nuk janë universale. Në një grup të detyrave të brendshme të hulumtimit të AI, Opus 4.1 tregoi performancë pak më të ulët sesa paraardhësi i tij në fusha si optimizimi i kernelit dhe mësimi i përforcimit të bazuar në tekst. Kjo sugjeron që përmirësimet janë rezultat i rafinimeve të synuara sesa një përparim i njëtrajtshëm, i aftësive në të gjithë bordin. Në zonat e tij të synuara, Claude Opus 4.1 poston rezultatet kryesore, veçanërisht në kodimin agjent ku 74.5% e tij në SWE-Bench dhe 43.3% në Bench Bench Terminal të tejkalojë si paraardhësit e tij ashtu edhe rivalët kryesorë si Openai’s O3 dhe Gemini Pro të Google. Kjo sugjeron një përqendrim të qëllimshëm në kapjen e tregut të zhvilluesit dhe ndërmarrjeve ku këto aftësi janë parësore. Në arsyetimin e nivelit të diplomuar (GPQA Diamond), 80.9%i Opus 4.1 është i respektueshëm, por gjurmon të dy Binjakët 2.5 Pro (86.4%) dhe O3 (83.3%). Një hendek më i dukshëm shfaqet në garat e matematikës në shkollën e mesme (AIME 2025), ku 78.0% e saj është më shumë se dhjetë pikë pas konkurrentëve të saj, të cilët shënojnë gati 89%. Në mënyrë të ngjashme, në arsyetimin vizual (MMMU), Opus 4.1 përmirësohet para paraardhësit të tij, por nuk i kap udhëheqësit. src=”të dhëna: imazh/svg+xml; nitro-impty-id=mty0mdoxnjez-1; base64, phn2zyb2awv3qm94psiwidagmti4mcaxmdi2ii B3awr0ad0imti4mcigagvpz2h0psixmdi2iib4bwxucz0iahr0cdovl3d3dy53my5vcmcvmjawmc9zdmcipjwvc3znpg==”> Pika e të dhënave më e thënë që mbështet një strategji”rafinimi të synuar”vjen nga Bench Tau për përdorimin e mjeteve agjentike. Ndërsa Opus 4.1 përmirësohet në detyrën”me pakicë”, performanca e tij në detyrën”Airline”në të vërtetë bie në 56.0%, duke rënë prapa jo vetëm paraardhësit të tij të drejtpërdrejtë, Opus 4 (59.6%), por edhe më pak të fuqishëm Claude Sonnet 4 (60.0%). Ky rezultat i përzier tregon fuqimisht se antropika ka prioritizuar dhe optimizuar për aftësi specifike, duke pranuar tregti në të tjerët për të shtyrë kufirin, ku beson se ka rëndësi më shumë. Ndërsa analisti Holger Mueller i Constellation Research vuri në dukje për lëvizjet e mëparshme të kompanisë,”Shitësit e LLM po punojnë pirg në shtresën PaaS. Antropik është një shembull i shkëlqyeshëm i kësaj lëvizje me lëshimin e saj të fundit”. Ky evolucion nga një ofrues i modelit të papërpunuar në një platformë si një shitës i shërbimit (PAAS), që synon krijimin e një ekosistemi të zhvilluesit ngjitës, është kritik për rritjen afatgjatë dhe siguron kontekstin strategjik për këto ngritje të performancës së synuar. Shoqëria e shoqërimit shtesa e kartës së sistemit është thelbësore për këtë tregim. Ai konfirmon se modeli është vendosur nën standardin ekzistues, paraprak të sigurisë ASL-3, i aplikuar për herë të parë në Claude 4 Politika e Antropikut thotë,”nëse një model i ri ose ekzistues është nën standard produkte”. Antropik po përpiqet të demonstrojë një rrugë më të qëndrueshme.
Gjetjet e kartës së sistemit paraqesin një pamje të nuancuar. Ndërsa bashkëpunimi me”keqpërdorimin e njeriut të egër”ra me rreth 25%, modeli tregoi një regresion të vogël në detyrat e hakerimit të shpërblimit. Kjo do të thotë se mund të jetë më e prirur për të gjetur rrugëdalje të zgjuara sesa për të zgjidhur logjikën thelbësore të një problemi. Kjo nxjerr në pah fytyrën e vazhdueshme të Sfidave të Laboratorëve në sigurimin e modeleve që i përmbahen shpirtit, jo vetëm letrës, të udhëzimeve të një përdoruesi. Paraardhësi në maj 2025, i cili u dëmtua nga zbulimi i një aftësie emergjente”bilbiluese”. Në atë kohë, antropik sqaroi sjellja u pa vetëm në teste shumë të kontrolluara dhe jo në përdorim normal. Shkencëtari kryesor i Antropikut, Jared Kaplan, pranoi kohën që modelimi i tyre tregoi”ju mund të përpiqeni të sintetizoni diçka si Covid ose një version më të rrezikshëm të GRE-së”. Mund të jetë e mundur.”
Nisja e modelit të ri, i çiftuar me kornizën e re të sigurisë së Antropikut për agjentët e AI, duket i dizajnuar për të projektuar stabilitetin. Shtë një veprim në kohë në një treg të tronditur nga dështimet e fundit të AI, siç është