Anthropic a publié aujourd’hui Claude Opus 4.5, revendiquant le meilleur score de codage du secteur et introduisant un changement architectural important pour réduire les coûts.
En réduisant le prix de 66 % à 5 $ par million de jetons d’entrée et en déployant”Tool Search”pour réduire la surcharge de contexte de 85 %, l’entreprise s’attaque directement au principal obstacle économique aux agents d’IA autonomes.
Le modèle obtient un score de 80,9 % sur le banc SWE. Vérifié, devançant de peu les versions récentes de Google et d’OpenAI pour récupérer la couronne de performances pour les tâches complexes d’ingénierie logicielle.
The Benchmark Wars : Reclaiming the Crown
Opus 4.5 arrive avec un score de 80,9 % sur SWE-bench Verified, l’étalon-or actuel pour évaluer les capacités d’ingénierie logicielle autonomes. Surpassant la concurrence, le score bat celui du lancement de Gemini 3 Pro de Google à 76,2 % et celui de GPT-5.1-Codex-Max à 77,9 %.
Les évaluations internes suggèrent que le modèle obtient désormais des résultats supérieurs à ceux des candidats humains aux tests d’ingénierie d’Anthropic.”Opus 4.5 est un pas en avant dans ce que les systèmes d’IA peuvent faire, et un aperçu de changements plus importants dans la façon dont le travail est effectué”, a déclaré la société dans son annonce.
Pour équilibrer le coût par rapport à la capacité, un nouveau paramètre « effort » permet aux développeurs d’ajuster dynamiquement la profondeur de raisonnement du modèle pendant les appels d’API. Avec un effort « moyen », Opus 4.5 atteint les performances maximales du modèle Sonnet 4.5 précédent mais consomme 76 % de jetons de sortie en moins.
Repoussant le plafond de la résolution automatisée de problèmes, le paramètre d’effort « élevé » dépasse les capacités de Sonnet 4.5 de 4,3 points de pourcentage. Novembre s’est avéré être un mois actif dans le domaine de l’IA, les trois grands laboratoires ayant déployé leurs modèles de codage phares entre le 18 et le 24.
Le changement économique : tarification et architecture
Pour répondre aux préoccupations des entreprises concernant la viabilité de modèles de « raisonnement » coûteux, Anthropic a revu de manière agressive le prix du modèle à 5 $ par million de jetons d’entrée et à 25 $ par million de jetons de sortie.
Par rapport à la génération précédente d’Opus (15 $/75 $), le nouveau tarif offre une réduction de 66 %, comme détaillé dans Présentation de Claude Opus 4.5.
Sous le capot, l’architecture s’attaque au problème du « contexte ballonnement ». Traditionnellement, le chargement de plus de 50 définitions d’outils pouvait consommer environ 55 000 jetons avant qu’une seule requête utilisateur soit traitée.
Selon la documentation sur l’utilisation avancée des outils, le nouveau système modifie fondamentalement cette dynamique :
« Au lieu de charger toutes les définitions d’outils à l’avance, l’outil de recherche d’outils découvre les outils. à la demande, Claude ne voit que les outils dont il a réellement besoin pour la tâche en cours. les mécanismes de PTC :
« Au lieu que Claude demande des outils un par un, chaque résultat étant renvoyé dans son contexte, Claude écrit du code qui appelle plusieurs outils, traite leurs sorties et contrôle les informations qui entrent réellement dans sa fenêtre de contexte. étapes d’inférence aller-retour pour chaque appel d’outil individuel, réduisant considérablement la latence. Le traitement d’ensembles de données étendus, tels que 200 Ko de données brutes sur les dépenses, devient viable dans la mesure où le modèle renvoie uniquement le résultat final de 1 Ko à la fenêtre contextuelle.
“Pour créer des agents efficaces, ils doivent travailler avec des bibliothèques d’outils illimitées sans insérer chaque définition dans le contexte à l’avance”, a noté l’équipe d’ingénierie d’Anthropic.
Expansion de l’écosystème : Chrome, Excel et sécurité
Au-delà du modèle de base,”Claude Code”est passé de la version bêta à la disponibilité générale, offrant une application de bureau complète pour les flux de travail des développeurs. De nouvelles intégrations permettent au modèle de contrôler directement le navigateur Chrome, allant au-delà de la génération de texte vers la recherche active et l’exécution de tâches.
[contenu intégré]
Ciblant la modélisation financière, une intégration Excel dédiée permet au modèle de manipuler des feuilles de calcul comportant des milliers de lignes.
Dianne Na Penn, responsable de la gestion des produits pour la recherche chez Anthropic, a souligné l’importance de cette fonctionnalité :”Connaître les bons détails à retenir est vraiment important en complément d’une fenêtre contextuelle plus longue.”
[contenu intégré]
La sécurité reste un pilier central de la version. La carte système Claude Opus 4.5 met en évidence des investissements importants dans l’atténuation des risques chimiques, biologiques, radiologiques et nucléaires (CBRN).
La carte système décrit explicitement l’état d’alignement du modèle :
« Opus 4.5 est le modèle aligné le plus solidement que nous ayons publié à ce jour et, nous soupçonnons qu’il s’agit du modèle frontière le mieux aligné par tous les développeurs.”
“L’Opus 4.5 est plus difficile à tromper avec une injection rapide que tout autre modèle frontière du secteur. Les récits sont passés des « chatbots » aux « agents » capables d’effectuer des tâches pendant plus de 24 heures.
Bien qu’Anthropic soit en tête des benchmarks bruts (80,9 %), la marge est très mince, avec moins de 5 points de pourcentage séparant les trois principaux concurrents. Un compromis clé existe dans la nouvelle architecture : la « recherche d’outils » introduit une étape de recherche qui peut ajouter de la latence par rapport au fait que tous les outils sont préchargés en contexte.
Contrairement à l’optimisation native Windows d’OpenAI avec Codex-Max, Anthropic parie sur une approche de bureau indépendante de la plate-forme. La gestion de la mémoire est devenue le nouveau champ de bataille, OpenAI utilisant le « compactage » et Anthropic déployant la « recherche d’outils » pour résoudre le même goulot d’étranglement de la fenêtre contextuelle.