Anthropic a officiellement publié sa nouvelle IA phare, Claude Opus 4.1, une mise à niveau incrémentielle conçue pour augmenter les performances de codage et de raisonnement. Lancé le 5 août, le modèle est désormais disponible pour les utilisateurs et les développeurs payants via l’API d’Anthropic, le fondement d’Amazon et le sommet de Google Ai.

Le communiqué suit des fuites récentes et une nouvelle poussée à l’échelle de l’entreprise pour la sécurité de l’IA. Dans son carte système , Anthropic encadre la mise à jour comme un pas en avant délibéré et mesuré. Il améliore les capacités sans franchir le seuil «notamment plus capable» qui déclencherait une nouvelle revue de sécurité complète.

Cette stratégie souligne ses efforts pour équilibrer l’innovation avec un déploiement responsable. Le prix demeure identique à son prédécesseur , signalant un remplacement direct de Claude Opus 4 et d’un mouvement vers la stabilité du marché après une période turbulente. src=”https://winbuzzer.com/wp-content/uploads/2025/08/claude-4-oopus-4.1-vs-opus-4.0-vs-sonnet-3.7-swe-bench.webp”width=”785″height=”442″>

a mesuré lev.

La fonctionnalité de Claude Opus 4.1 est ses performances considérablement améliorées dans les tâches complexes et à grande valeur, en particulier celles cruciales pour les flux de travail d’entreprise et de développeurs. Annonce d’Anthropic Trade immédiatement un nouveau score d’état-de-art de 74,5% sur le swewerdwww.swebench.com/”Target=”_ wadk”> swewerdwww.swebench.com/”Target=”_ wadk”* wier Évaluation , une référence exigeante qui teste la capacité d’une IA à résoudre de manière autonome les problèmes du monde réel des référentiels GitHub. Ce saut dans les prouesses de codage est complété par des améliorations déclarées de la recherche agentique, de la recherche approfondie et des compétences d’analyse des données, positionnant le modèle en tant que concurrent direct pour la résolution de problèmes de problèmes sophistiquée et en plusieurs étapes.

La validation précoce des partenaires de l’industrie souligne ces réclamations. Selon l’annonce, GitHub a observé «des gains de performances particulièrement notables dans le refactorisation de code multi-fichiers». Rakuten Group a salué la précision du modèle, notant qu’il «excelle à la piment des corrections exactes dans les grandes bases de code sans effectuer des ajustements inutiles ou l’introduction de bogues». Pendant ce temps, l’entreprise Windsurf a rapporté qu’Opus 4.1 avait apporté une amélioration complète de l’écart-type par rapport à son prédécesseur sur leur référence de développeur junior, un saut significatif et quantifiable de capacité. Addendum révèle un profil de performance plus nuancé. Bien que le modèle montre des améliorations progressives claires dans des domaines tels que la cyber-défense-résoudre 18 des 35 défis de cybench par rapport à 16 pour l’OPU 4-les gains ne sont pas universels. Sur une suite de tâches de recherche interne d’IA, l’OPU 4.1 a montré des performances légèrement inférieures à son prédécesseur dans des domaines tels que l’optimisation du noyau et l’apprentissage par renforcement textuel. Cela suggère que les améliorations sont le résultat de raffinements ciblés plutôt que d’une percée uniforme de la capacité à travers le plan.

La table de référence publique partagée par anthropique peint une image de la spécialisation stratégique plutôt que de la dominance du bord. Dans ses zones cibles, Claude Opus 4.1 publie des scores de premier plan, en particulier dans le codage agentique où ses 74,5% sur SWE-Bench et 43,3% sur le banc terminal dépassent à la fois ses prédécesseurs et ses concurrents clés comme O3 et Google de Google Gemini 2.5 Pro. Cela suggère une concentration délibérée sur la capture du marché des développeurs et des entreprises où ces capacités sont primordiales.

Cependant, l’histoire est différente dans le raisonnement général et les domaines de connaissances spécialisés. Sur le raisonnement au niveau des diplômés (GPQA Diamond), 80,9% de l’OPU 4.1 est respectable mais suit les Gémeaux 2.5 Pro (86,4%) et O3 (83,3%). Un écart plus notable se dégage dans les compétitions de mathématiques du secondaire (AIME 2025), où ses 78,0% sont plus de dix points de ses concurrents, qui obtiennent près de 89%. De même, dans le raisonnement visuel (MMMU), Opus 4.1 améliore son prédécesseur mais n’attrape pas les leaders.

Le point de données le plus révélateur soutenant une stratégie de «raffinement ciblé» provient du tau-banc pour l’utilisation d’outils agentiques. Alors que OPUS 4.1 améliore la tâche de «vente au détail», ses performances sur la tâche «compagnie aérienne» tombent en fait à 56,0%, en prenant en retard non seulement son prédécesseur direct, OPUS 4 (59,6%), mais aussi le Claude Sonnet 4 moins puissant (60,0%). Ce résultat mixte indique fortement qu’Anthropic a priorisé et optimisé pour des capacités spécifiques, acceptant des compromis chez d’autres à pousser la frontière où il pense que cela compte le plus.

Les antropiques se concentrent sur les compétences pratiques et à valeur élevée reflètent une tendance industrielle plus large et l’évolution stratégique de la société. Comme l’analyste Holger Mueller de Constellation Research l’a noté sur les mouvements antérieurs de l’entreprise, «les fournisseurs de LLM travaillent dans la couche PaaS. Anthropic est un excellent exemple de cette décision avec sa dernière version.» Cette évolution d’un fournisseur de modèles brutes à une plate-forme en tant que fournisseur de service (PAAS), visant à créer un écosystème de développeur collant, est essentielle pour une croissance à long terme et fournit d’abord le contexte stratégique de ces augmentations de performances ciblées.

La sécurité d’abord: une mise à jour incrémentale sous les protocoles existants L’accompagnement Addendum de carte système est central de ce récit. Il confirme que le modèle est déployé sous la norme de sécurité ASL-3 précaution existante, appliquée d’abord à Claude 4.

Le document précise que parce que la mise à jour est incrémentielle, elle ne nécessitait pas un nouvel examen de sécurité complet dans le cadre de la politique de mise à l’échelle responsable de la société (RSP). La politique d’Anthropic déclare: «Si un modèle nouveau ou existant est inférieur à la norme« notamment plus performante », aucun autre test n’est nécessaire», une clause qui permet des améliorations itératives plus rapides.

Cette approche contraste fortement avec les antécédents récents de l’industrie des «produits brillants» que la sécurité de la ligne de touche, une infraction de la sécurité et des processus, qui ont fait une contre-la sécurité ouverte, qui a affirmé «la culture de la sécurité et les processus. Anthropic essaie de démontrer un chemin plus durable.

Les résultats de la carte du système présentent une image nuancée. Alors que la coopération avec «une mauvaise utilisation humaine flagrante» a baissé d’environ 25%, le modèle a montré une légère régression sur les tâches de piratage de récompense. Cela signifie qu’il peut être plus enclin à trouver des solutions de contournement intelligentes plutôt que de résoudre la logique principale d’un problème.

Sur les tâches de codage”impossible”, par exemple, la tendance de l’Opus 4.1 à”pirater”une solution était de 52%, une légère augmentation par rapport à 51% d’Opus 4. Cela met en évidence le défi en cours auxquels les laboratoires sont confrontés pour s’assurer que les modèles adhèrent à l’esprit, pas seulement la lettre, les instructions d’un utilisateur.

de la controverse à la continuité: le remplacement d’un prédécesseur puissant

Le lancement de l’OPUS 4.1 est également un positionnement stratégique pour transformer la page sur le controverse qui a entouré le clignot Le lancement de son prédécesseur en mai 2025, qui a été gâché par la découverte d’une capacité émergente de «dénonciation».

Cette fonctionnalité, où l’IA pourrait prendre une «action très audacieuse» si elle percevait les actes répréhensibles, a déclenché une réaction féroce des développeurs. À l’époque, Anthropic a clarifié le comportement n’a été observé que dans des tests hautement contrôlés et non dans une utilisation normale.

simultanément, la société a placé Opus 4 sous ses protocoles de sécurité ASL-3 les plus stricts dus à des bio-disques identifiés. Le scientifique en chef d’Anthropic, Jared Kaplan, a admis à Time que leur modélisation a montré «Vous pouviez essayer de synthétiser quelque chose comme Covid ou une version plus de dangereuse de la manière, et de la synthèse de quelque chose comme Covid ou une version de dangereuse-Notre modélisation qui suggère quelque chose comme Covid ou une version plus de dangereuse de la manière, et de la base de la modélisation qui suggère quelque chose comme Covid ou une version plus de dangereuse de la manière Frace-Notre-Basiculy Cela peut être possible.”

Le lancement du nouveau modèle, jumelé avec le nouveau cadre de sécurité d’Anthropic pour les agents de l’IA, semble conçu pour projeter la stabilité. C’est une décision en temps opportun dans un marché secoué par de récentes échecs d’IA, tels que

Categories: IT Info