Antropic lansează Claude Opus 4.1, o actualizare măsurată axată pe codare și siguranță

Antropic a lansat oficial noul său AI-pilot, Claude Opus 4.1, un upgrade incremental conceput pentru a stimula performanța de codificare și raționament. Lansat pe 5 august, modelul este acum disponibil pentru utilizatorii și dezvoltatorii plătiți prin API-ul Antropic, Amazon Bedrock și Vertex AI. În card de sistem , antropic încadrează actualizarea ca un pas deliberat, măsurat înainte. Îmbunătățește capacitățile fără a traversa pragul „în special mai capabil”, care ar declanșa o recenzie completă a siguranței.

Această strategie își subliniază efortul de a echilibra inovația cu implementarea responsabilă. Prețul rămâne identic cu predecesorul său , semnalând o înlocuire directă pentru Claude Opus 4 și o mișcare către stabilitatea pieței după o perioadă turbulentă.

Un salt măsurat în codare și raționament

Caracteristica principală a Claude Opus 4.1 este performanța sa semnificativ îmbunătățită în sarcini complexe, de mare valoare, în special cele cruciale pentru fluxuri de lucru pentru întreprindere și dezvoltatori. Anunțul antropic imediat trâmbiță un nou scor de stat de stat de 74,5% pe Swe-/Bench. Evaluare , un referință solicitant care testează capacitatea AI de a rezolva în mod autonom problemele din lumea reală din depozitele GitHub. Acest salt în priceperea codificării este completat de îmbunătățiri declarate în căutarea agentică, cercetarea aprofundată și abilitățile de analiză a datelor, poziționând modelul ca un concurent direct pentru rezolvarea problemelor sofisticate, în mai multe etape. Potrivit anunțului, Github a observat „câștiguri de performanță deosebit de notabile în refactorizarea codului cu mai multe fișiere”. Grupul Rakuten a lăudat precizia modelului, menționând că „excelează la identificarea corecțiilor exacte în cadrul codurilor mari, fără a face ajustări inutile sau de a introduce bug-uri”. Între timp, firma Windsurf a raportat că Opus 4.1 a oferit o îmbunătățire completă a abaterii standard față de predecesorul său pe referința lor de dezvoltator de juniori, un salt semnificativ și cuantificabil în capacitate.

Cu toate acestea, o privire mai profundă în modelul dezvăluie un profil de performanță mai nuanțat. În timp ce modelul prezintă îmbunătățiri incrementale clare în domenii precum apărarea cibernetică-rezolvarea 18 din 35 de provocări Cybench comparativ cu 16 pentru Opus 4-câștigurile nu sunt universale. Pe o suită de sarcini interne de cercetare AI, Opus 4.1 a arătat performanțe ușor mai mici decât predecesorul său în domenii precum optimizarea kernelului și învățarea de întărire bazată pe text. Acest lucru sugerează că îmbunătățirile sunt rezultatul rafinamentelor vizate, mai degrabă decât a unei descoperiri uniforme, de-a lungul bordului.

Tabelul de referință public împărtășit de vopselele antropice o imagine a specializării strategice, mai degrabă decât a dominanței de-a lungul bordului. În zonele sale țintă, Claude Opus 4.1 postează scoruri de conducere, în special în codificarea agentică, unde 74,5% pe SWE-Bench și 43,3% pe blanda terminalului depășesc atât predecesorii săi, cât și rivalii cheie, precum OpenAI O3 și Google Gemini 2.5 Pro. Acest lucru sugerează un accent deliberat pe captarea pieței dezvoltatorului și a întreprinderilor, unde aceste capacități sunt primordiale.

Cu toate acestea, povestea este diferită în raționamente generale și domenii de cunoștințe specializate. La raționamentul la nivel absolvent (GPQA Diamond), OPUS 4.1 de 80,9%este respectabil, dar urmează atât Gemeni 2,5 Pro (86,4%), cât și O3 (83,3%). Un decalaj mai notabil apare în competițiile de matematică din liceu (AIME 2025), unde 78,0% este mai mult de zece puncte în spatele concurenților săi, care au marcat aproape 89%. În mod similar, în raționamentul vizual (MMMU), Opus 4.1 se îmbunătățește pe predecesorul său, dar nu-i prinde pe lideri.

Cel mai povestitor punct de date care susține o strategie „rafinament vizat” provine de la tau-banch pentru utilizarea instrumentului agentic. În timp ce Opus 4.1 se îmbunătățește în sarcina „cu amănuntul”, performanța sa în sarcina „companiei aeriene” scade de fapt la 56,0%, rămânând în urmă nu numai predecesorul său direct, Opus 4 (59,6%), ci și cel mai puțin puternic Claude Sonet 4 (60,0%). Acest rezultat mixt indică cu tărie că Antropic a prioritizat și optimizat pentru capacități specifice, acceptând compromisuri în alții pentru a împinge frontiera unde consideră că contează cel mai mult.

Antropice se concentrează pe abilități practice, de mare valoare, reflectă o tendință mai largă a industriei, iar evoluția strategică a companiei. După cum a remarcat analistul Holger Mueller de la Constellation Research despre mișcările anterioare ale companiei, „Vânzătorii LLM lucrează la stiva în stratul PaaS. Antropic este un excelent exemplu al acestei mișcări cu ultima sa lansare”. Această evoluție de la un furnizor de modele brute la o platformă ca furnizor de servicii (PaaS), care vizează crearea unui ecosistem de dezvoltatori lipicios, este esențială pentru creșterea pe termen lung și oferă contextul strategic pentru aceste impulsuri de performanță vizate.

Siguranța mai întâi: o actualizare a performanței vizate în protocoalele existente în mod deliberat în protocoale

antropic este în mod deliberat în mod deliberat în jurul acesteia

antropic. Însoțirea addum de card de sistem este esențial pentru această narațiune. Acesta confirmă că modelul este implementat în conformitate cu standardul de siguranță ASL-3 existent, de precauție, aplicat mai întâi pe Claude 4.

Documentul clarifică că, deoarece actualizarea este incrementală, nu a necesitat o revizuire completă, nouă de siguranță, în conformitate cu politica de scalare responsabilă a companiei (RSP). Politica antropică afirmă: „Dacă un model nou sau existent se află sub standardul„ în special mai capabil “, nu este necesară alte testări”, o clauză care permite îmbunătățiri mai rapide, iterative.

Această abordare contrastează brusc cu istoria recentă a industriei de „Produse strălucitoare”, pe care o margine, un sentiment de siguranță și procese ecou de către fostul de siguranță a lui Jan Leike, care a revendicat „Sentimentul de siguranță și proceselor care au fost în curs de siguranță pentru a fi condus de Jan Jan Leike, care a revendicat”, un sentiment ecolog produse.”Antropic încearcă să demonstreze o cale mai durabilă.

Constatările cardului de sistem prezintă o imagine nuanțată. În timp ce cooperarea cu „abuzul uman necorespunzător” a scăzut cu aproximativ 25%, modelul a arătat o ușoară regresie asupra sarcinilor de hacking de recompense. Acest lucru înseamnă că poate fi mai predispus la găsirea de soluții inteligente, mai degrabă decât la rezolvarea logicii de bază a unei probleme.

pe sarcinile de codificare „imposibile”, de exemplu, tendința Opus 4.1 de a „hack” o soluție a fost de 52%, o ușoară creștere de la 51%a OPUS 4. Acest lucru evidențiază în curs de desfășurare laboratoarele de provocări în asigurarea modelelor care respectă spiritul, nu doar scrisoarea, a instrucțiunilor unui utilizator.

de la controverse la continuitate: înlocuirea unui predecesor puternic

Lansarea Opus 4.1 este, de asemenea, o mișcare strategică pentru a transforma pagina pe controversele care înconjurate Claude 4. Predecesorul din mai 2025, care a fost marcat de descoperirea unei capacități „denunțătoare” emergente.

Această caracteristică, în care AI-ul ar putea lua acțiuni „foarte îndrăznețe” dacă ar percepe infracțiuni, a stârnit o reacție aprigă din partea dezvoltatorilor. La vremea respectivă, Antropic a clarificat comportamentul a fost observat doar în testele extrem de controlate și nu în utilizarea normală.

simultan, compania a plasat Opus 4 sub cele mai stricte protocoale de siguranță ASL-3 din cauza bio-riscurilor identificate. Anthropic’s Chief Scientist, Jared Kaplan, admitted to TIME that their modeling showed “you could try to synthesize something like COVID or a more dangerous version of the flu—and basically, our modeling suggests that this might be Posibil.”

Lansarea noului model, asociată cu noul cadru de siguranță al Antropic pentru agenții AI, pare conceput pentru a proiecta stabilitatea. Este o mișcare în timp util pe o piață zguduită de eșecurile recente ale AI, cum ar fi

Antropic lansează Claude Opus 4.1, o actualizare măsurată axată pe codare și siguranță

Published by All Things Windows on August 5, 2025

Un salt măsurat în codare și raționament

Siguranța mai întâi: o actualizare a performanței vizate în protocoalele existente în mod deliberat în protocoale

de la controverse la continuitate: înlocuirea unui predecesor puternic

IT Info

Meta Demos Viitorul VR cu căști Tiramisu și Boba 3

IT Info

OpenAI dezvăluie „completări sigure” pentru GPT-5 pentru a rezolva problema cu utilizare dublă a AI

IT Info

Microsoft integrează GPT-5 pe întreaga linie de produse, modernizarea Copilotului, Azure și Github

Antropic lansează Claude Opus 4.1, o actualizare măsurată axată pe codare și siguranță

Published by All Things Windows on August 5, 2025

Un salt măsurat în codare și raționament

Siguranța mai întâi: o actualizare a performanței vizate în protocoalele existente în mod deliberat în protocoale

de la controverse la continuitate: înlocuirea unui predecesor puternic

Related Posts

IT Info

Meta Demos Viitorul VR cu căști Tiramisu și Boba 3

IT Info

OpenAI dezvăluie „completări sigure” pentru GPT-5 pentru a rezolva problema cu utilizare dublă a AI

IT Info

Microsoft integrează GPT-5 pe întreaga linie de produse, modernizarea Copilotului, Azure și Github