Anthropic a lancé Claude Sonnet 4.5, son dernier modèle d’IA, qui, selon la société, est le modèle le meilleur et le plus sûr du monde pour coder et créer des agents logiciels complexes. Claude Sonnet 4.5 démontre des performances de pointe sur des références clés de l’industrie.
Le modèle surpasse ses prédécesseurs et ses rivaux comme le GPT-5 d’Openai et les Gémeaux de Google. Le lancement comprend des mises à niveau majeures vers les outils de développeur d’Anthropic, tels qu’une nouvelle extension de code VS et un SDK d’agent, visant à permettre des tâches autonomes plus sophistiquées et de longue durée.
La société souligne la sécurité améliorée du modèle, la libérant sous des protections ASL-3 strictes vers Risques et réduisez les comportements nocifs . Ce mouvement le positionne comme un partenaire d’IA plus fiable et aligné pour les développeurs dans une race technologique croissante rapidement.
Une nouvelle référence pour le codage de l’IA et l’endurance agentique
Les affirmations de suprématie d’Anthropic sont soutenues par une liste de métriques impressionnantes qui positionnent Sonnet 4.5 en haut de plusieurs classements clés de l’industrie.
La société Annonce officielle met en évidence ses performances d’état-de-art sur les évaluations exigeantes telles que Swe-Bench vérifiées, un benchmarked qui mesure la capacité d’une AI à résoudre les problèmes réels de l’ingénierie logicielle de Githubs de Github Repositorys.
Le modèle a également établi un nouvel enregistrement sur OSWorld, une suite qui teste la capacité d’une IA à effectuer des tâches informatiques pratiques et réelles.
Il a obtenu un score de 61,4%, un saut significatif par rapport aux 42,2% détenus par son prédécesseur, Sonnet 4, seulement quatre mois avant. Cette performance le place devant les concurrents comme Gemini 2.5 Pro de Google et le GPT-5 d’OpenAI sur plusieurs fronts, selon des références partagées par la société.
Ce saut de performance n’est pas seulement progressif; Il dépasse notamment le modèle phare plus cher d’Anthropic, Opus 4.1. En offrant des capacités supérieures au même prix que le Sonnet 4 aîné, Anthropic fait un cas fort pour l’efficacité et la valeur, offrant aux développeurs l’accès à des performances de haut niveau sans une prime de coûts.
Au-delà des scores bruts, un différenciateur clé est l’endurance considérablement améliorée du modèle pour le travail autonome. Anthropic rapporte que Sonnet 4.5 peut fonctionner sur des projets complexes en plusieurs étapes pendant plus de 30 heures en continu.
Il s’agit d’un saut monumental de la capacité d’environ sept heures de Claude 4 Opus, qui était déjà considéré comme une percée lorsqu’elle a été lancée en mai.
Ce n’est pas une limite théorique. Au cours des premiers essais, le chercheur anthropique de l’IA, David Hershey, a déclaré à TechCrunch qu’il avait regardé le modèle non seulement créer une application, mais également supporter les services de base de données, acheter des noms de domaine et effectuer un nouveau niveau de sécurité SOC 2 sur son propre travail.
Lenet 4.5 démontre un nouveau niveau d’agence pratiques et à long terme. Largeur. Les premiers commentaires des experts en finance, en droit, en médecine et en STEM ont révélé que Sonnet 4.5 a considérablement mieux les connaissances et le raisonnement spécifiques au domaine que les modèles précédents.
Ceci est en outre soutenu par ses fortes performances sur un large éventail d’évaluations mesurant les capacités mathématiques et raisonnement. Comme l’a noté Hershey, il est difficile de capturer les performances de Claude Sonnet 4.5 sur les repères, mettant en évidence la capacité du modèle à relever les développeurs à long horizon du monde réel avec une simple génération de code. L’écosystème du développeur d’Anthropic. La société a