Anthropic a lancé Claude Sonnet 4.5, son dernier modèle d’IA, qui, selon la société, est le modèle le meilleur et le plus sûr du monde pour coder et créer des agents logiciels complexes. Claude Sonnet 4.5 démontre des performances de pointe sur des références clés de l’industrie.

Le modèle surpasse ses prédécesseurs et ses rivaux comme le GPT-5 d’Openai et les Gémeaux de Google. Le lancement comprend des mises à niveau majeures vers les outils de développeur d’Anthropic, tels qu’une nouvelle extension de code VS et un SDK d’agent, visant à permettre des tâches autonomes plus sophistiquées et de longue durée.

La société souligne la sécurité améliorée du modèle, la libérant sous des protections ASL-3 strictes vers Risques et réduisez les comportements nocifs . Ce mouvement le positionne comme un partenaire d’IA plus fiable et aligné pour les développeurs dans une race technologique croissante rapidement.

Une nouvelle référence pour le codage de l’IA et l’endurance agentique

Les affirmations de suprématie d’Anthropic sont soutenues par une liste de métriques impressionnantes qui positionnent Sonnet 4.5 en haut de plusieurs classements clés de l’industrie.

La société Annonce officielle met en évidence ses performances d’état-de-art sur les évaluations exigeantes telles que Swe-Bench vérifiées, un benchmarked qui mesure la capacité d’une AI à résoudre les problèmes réels de l’ingénierie logicielle de Githubs de Github Repositorys.

Le modèle a également établi un nouvel enregistrement sur OSWorld, une suite qui teste la capacité d’une IA à effectuer des tâches informatiques pratiques et réelles.

Il a obtenu un score de 61,4%, un saut significatif par rapport aux 42,2% détenus par son prédécesseur, Sonnet 4, seulement quatre mois avant. Cette performance le place devant les concurrents comme Gemini 2.5 Pro de Google et le GPT-5 d’OpenAI sur plusieurs fronts, selon des références partagées par la société.

Ce saut de performance n’est pas seulement progressif; Il dépasse notamment le modèle phare plus cher d’Anthropic, Opus 4.1. En offrant des capacités supérieures au même prix que le Sonnet 4 aîné, Anthropic fait un cas fort pour l’efficacité et la valeur, offrant aux développeurs l’accès à des performances de haut niveau sans une prime de coûts.

Au-delà des scores bruts, un différenciateur clé est l’endurance considérablement améliorée du modèle pour le travail autonome. Anthropic rapporte que Sonnet 4.5 peut fonctionner sur des projets complexes en plusieurs étapes pendant plus de 30 heures en continu.

Il s’agit d’un saut monumental de la capacité d’environ sept heures de Claude 4 Opus, qui était déjà considéré comme une percée lorsqu’elle a été lancée en mai.

Ce n’est pas une limite théorique. Au cours des premiers essais, le chercheur anthropique de l’IA, David Hershey, a déclaré à TechCrunch qu’il avait regardé le modèle non seulement créer une application, mais également supporter les services de base de données, acheter des noms de domaine et effectuer un nouveau niveau de sécurité SOC 2 sur son propre travail.

Lenet 4.5 démontre un nouveau niveau d’agence pratiques et à long terme. Largeur. Les premiers commentaires des experts en finance, en droit, en médecine et en STEM ont révélé que Sonnet 4.5 a considérablement mieux les connaissances et le raisonnement spécifiques au domaine que les modèles précédents.

Ceci est en outre soutenu par ses fortes performances sur un large éventail d’évaluations mesurant les capacités mathématiques et raisonnement. Comme l’a noté Hershey, il est difficile de capturer les performances de Claude Sonnet 4.5 sur les repères, mettant en évidence la capacité du modèle à relever les développeurs à long horizon du monde réel avec une simple génération de code. L’écosystème du développeur d’Anthropic. La société a

L’expérience du développeur est encore améliorée avec A libérant le sdk de l’agent Claude . Ce n’est pas seulement une bibliothèque; Il donne aux développeurs l’accès à la même infrastructure de base qui alimente le code Claude. Il permet la création d’agents personnalisés pour des workflows spécialisés, de la conformité financière à la cybersécurité.

Cette stratégie soutient directement la vision à long terme de l’entreprise. Comme l’a déjà dit le PDG Dario Amodei, «nous nous dirigeons vers un monde où un développeur humain peut gérer une flotte d’agents, mais je pense que la participation humaine continue sera importante pour le contrôle de la qualité…» Le nouveau SDK est une étape fondamentale vers la vision de la réalité pour tous les développeurs. 4.5 comme «modèle frontalier le plus aligné à ce jour». La carte officielle du système de l’entreprise détaille une formation approfondie en matière de sécurité qui a entraîné une réduction substantielle des comportements indésirables comme la sycophance, la tromperie et la recherche de pouvoir.

Le modèle est publié dans le cadre strict de la sécurité de la sécurité de l’IA (ASL-3). Cela comprend le déploiement de filtres conçus pour détecter et empêcher la génération de résultats potentiellement dangereux, en particulier ceux liés aux armes chimiques, biologiques, radiologiques et nucléaires (CBRN).

Cette concentration sur la sécurité est une réponse directe aux préoccupations à l’échelle de l’industrie et vise à établir la confiance avec les clients d’entreprise. La société affirme que Sonnet 4.5 est nettement moins susceptible de provoquer des attaques d’injection et d’autres vulnérabilités qui ont tourmenté les générations précédentes de modèles d’IA.

naviguant sur un paysage hyper-compétitif d’IA

Le lancement de Sonnet 4.5 ne se produit pas dans un aspirateur. Il s’agit d’une décision stratégique sur un marché hyper-compétitif. Il y a quelques semaines à peine, OpenAI a lancé GPT-5-Codex, un modèle spécialisé pour le codage agentique. Son exemple de produit, Alexander Embiricos, a souligné son intelligence adaptative, déclarant:”GPT-5-Codex peut décider de cinq minutes dans un problème qu’il a besoin de passer une autre heure.”

En attendant, les Gémeaux de Google ont récemment démontré une résolution de problèmes surhumaine lors des finales du monde ICPC. Meta a également entré la mêlée avec son modèle de code mondial, un”débogueur neuronal”axé sur la compréhension de la logique du code plutôt que de l’écrire.

La stratégie d’Anthropic semble être double: concourir sur les performances brutes tout en différenciant la sécurité et l’expérience du développeur. Les premiers commentaires de partenaires comme Cursor et Windsurf sont positifs.

Le PDG du curseur, Michael Truell, Notée ,”Nous voyons des améliorations significatives sur les performances de codage de Cladet 4.5. Tâches Horizon,”tandis que le PDG de Windsurf, Jeff Wang, l’a appelé”une nouvelle génération de modèles de codage”.

Pour les développeurs, le prix reste inchangé à partir de Claude Sonnet 4, à 3 $ par million de jetons d’entrée et de 15 $ par million de jetons de sortie, faisant des nouvelles capacités une mise à niveau directe. Pour présenter sa puissance, Anthropic propose également un aperçu de recherche temporaire appelé “Imagine avec Claude”pour les abonnés max .

Categories: IT Info