Anthropic ha rilasciato oggi Claude Opus 4.5, rivendicando il punteggio di codifica più alto del settore e introducendo un significativo cambiamento architetturale per ridurre i costi.
Riducendo i prezzi del 66% a 5 dollari per milione di token di input e implementando”Tool Search”per ridurre l’overhead di contesto dell’85%, l’azienda attacca direttamente la principale barriera economica per gli agenti IA autonomi.
Il modello raggiunge un punteggio dell’80,9% sul banco SWE. Verificato, che supera di poco le versioni recenti di Google e OpenAI per rivendicare la corona delle prestazioni per attività complesse di ingegneria del software.
The Benchmark Wars: Reclaiming the Crown
Opus 4.5 arriva con un punteggio dell’80,9% su SWE-bench Verified, l’attuale gold standard per la valutazione delle capacità di ingegneria del software autonomo. Superando la concorrenza, il punteggio supera il lancio di Gemini 3 Pro di Google al 76,2% e GPT-5.1-Codex-Max al 77,9%.
Le valutazioni interne suggeriscono che il modello ora ottiene punteggi più alti rispetto ai candidati umani nei test ingegneristici di Anthropic.”Opus 4.5 è un passo avanti in ciò che i sistemi di intelligenza artificiale possono fare e un’anteprima di cambiamenti più ampi nel modo in cui viene svolto il lavoro”, ha affermato la società nel suo annuncio.
Per bilanciare costo e capacità, un nuovo parametro”sforzo”consente agli sviluppatori di regolare dinamicamente la profondità di ragionamento del modello durante le chiamate API. Con uno sforzo”medio”, Opus 4.5 eguaglia le prestazioni di picco del precedente modello Sonnet 4.5 ma consuma il 76% in meno di token di output.
Spingendo il limite della risoluzione automatizzata dei problemi, l’impostazione dello sforzo”alto”supera le capacità di Sonnet 4.5 di 4,3 punti percentuali. Novembre si è rivelato un mese attivo per l’intelligenza artificiale, con tutti e tre i principali laboratori che hanno implementato i loro modelli di codifica di punta tra il 18 e il 24.
Il cambiamento economico: prezzi e architettura
Affrontando le preoccupazioni delle aziende sulla fattibilità di costosi modelli di”ragionamento”, Anthropic ha ridefinito in modo aggressivo il modello a 5 dollari per milione di token di input e 25 dollari per milione di token di output.
Rispetto alla precedente generazione di Opus ($15/$75), la nuova tariffa offre uno sconto del 66%, come dettagliato in Introduzione a Claude Opus 4.5.
Sotto il cofano, l’architettura affronta il problema del”Context Bloat”. Tradizionalmente, il caricamento di oltre 50 definizioni di strumenti potrebbe consumare circa 55.000 token prima che una singola query utente venga elaborata.
Secondo la documentazione sull’utilizzo avanzato degli strumenti, il nuovo sistema cambia radicalmente questa dinamica:
“Invece di caricare tutte le definizioni degli strumenti in anticipo, lo strumento di ricerca degli strumenti rileva gli strumenti on-demand. Claude vede solo gli strumenti di cui ha effettivamente bisogno per l’attività corrente.”
“Ciò rappresenta una riduzione dell’85% nell’utilizzo dei token pur mantenendo l’accesso alla libreria completa di strumenti. I test interni hanno mostrato miglioramenti significativi della precisione nelle valutazioni MCP quando si lavora con librerie di strumenti di grandi dimensioni.”
A complemento di ciò c’è”Programmatic Tool Calling”(PTC), che consente al modello di scrivere codice di orchestrazione anziché fare affidamento su turni basati su chat.
Il tecnico. La documentazione spiega ulteriormente i meccanismi di PTC:
“Invece di Claude che richiede strumenti uno alla volta con ciascun risultato restituito al relativo contesto, Claude scrive codice che chiama più strumenti, elabora i loro output e controlla quali informazioni effettivamente entrano nella sua finestra di contesto.”
“Claude eccelle nella scrittura del codice e consentendogli di esprimere la logica di orchestrazione in Python anziché tramite invocazioni di strumenti in linguaggio naturale, si ottiene un flusso di controllo più affidabile e preciso.”
PTC elimina la necessità per passaggi di inferenza di andata e ritorno per ogni singola chiamata allo strumento, riducendo significativamente la latenza. L’elaborazione di set di dati estesi, come 200 KB di dati grezzi sulle spese, diventa fattibile poiché il modello restituisce solo il risultato finale di 1 KB nella finestra di contesto.
“Per creare agenti efficaci, devono lavorare con librerie di strumenti illimitate senza inserire in anticipo ogni definizione nel contesto”, ha osservato il team di ingegneri di Anthropic.
Espansione dell’ecosistema: Chrome, Excel e sicurezza
Oltre il modello principale,”Claude Code”è passato dalla versione beta alla disponibilità generale, offrendo un’applicazione desktop completa per i flussi di lavoro degli sviluppatori. Le nuove integrazioni consentono al modello di controllare direttamente il browser Chrome, andando oltre la generazione di testo alla ricerca attiva e all’esecuzione di attività.
[contenuto incorporato]
Ascoltando la modellazione finanziaria, un’integrazione Excel dedicata consente al modello di manipolare fogli di calcolo con migliaia di righe.
Dianne Na Penn, responsabile della gestione del prodotto per la ricerca presso Anthropic, ha sottolineato l’importanza di questa capacità:”Conoscere i dettagli giusti da ricordare è davvero importante oltre ad avere una finestra di contesto più lunga.”
[contenuto incorporato]
La sicurezza rimane un pilastro centrale del rilascio. La scheda di sistema Claude Opus 4.5 evidenzia investimenti significativi nella mitigazione dei rischi chimici, biologici, radiologici e nucleari (CBRN).
La scheda di sistema delinea esplicitamente lo stato di allineamento del modello:
“Opus 4.5 è il modello più saldamente allineato che abbiamo rilasciato fino ad oggi e, sospettiamo, il modello di frontiera meglio allineato da qualsiasi sviluppatore.”
“Opus 4.5 è più difficile da ingannare con l’iniezione tempestiva rispetto a qualsiasi altro modello di frontiera nel settore.”
La realtà del mercato: l’era degli agenti
Contestualizzando il lancio, la”corsa all’intelligenza artificiale di novembre”ha visto Google, OpenAI e Anthropic ruotare simultaneamente verso agenti autonomi. Le narrazioni sono passate da”chatbot”ad”agenti”in grado di sostenere attività per più di 24 ore.
Mentre Anthropic è in testa nei benchmark grezzi (80,9%), il margine è sottilissimo, con meno di 5 punti percentuali che separano i primi tre contendenti. Nella nuova architettura esiste un compromesso chiave:”Tool Search”introduce una fase di ricerca che potrebbe aggiungere latenza rispetto ad avere tutti gli strumenti precaricati nel contesto.
A differenza dell’ottimizzazione nativa di Windows di OpenAI con Codex-Max, Anthropic scommette su un approccio desktop indipendente dalla piattaforma. La gestione della memoria è emersa come il nuovo campo di battaglia, con OpenAI che utilizza la”compattazione”e Anthropic che implementa”Tool Search”per risolvere lo stesso collo di bottiglia della finestra contestuale.