Anthropicは、最新のAIモデルであるClaude Sonnet 4.5を発売しました。これは、複雑なソフトウェアエージェントをコーディングおよび構築するための世界最高の安全なモデルであると同社は主張しています。 Claude Sonnet 4.5は、主要な業界のベンチマークで最先端のパフォーマンスを示しています。

モデルは、OpenaiのGPT-5やGoogleのGeminiなどの前任者とライバルを上回ります。発売には、より洗練された長時間の自律的なタスクを可能にすることを目的とした、新しいVSコード拡張機能やエージェントSDKなど、人類の開発者ツールへの主要なアップグレードが含まれています。 href=”https://www.anthropic.com/claude-sonnet-4-5-system-card”target=”_ blank”>リスクを緩和し、有害行動を減らす。この動きは、急速にエスカレートする技術レースで開発者向けのより信頼性の高い整合性のAIパートナーとして配置されます。 src=”data:image/svg+xml; nitro-empty-id=mty0mzoxnzy4-1; base64、phn2zyb23qm94psiwidagmti4mca3mj aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

AIコーディングおよびエージェント持久力の新しいベンチマーク

人類の覇権の主張は、いくつかの主要な業界リーダーボードのトップにSonnet 4.5を位置付ける印象的なメトリックのスレートによって裏付けられています。 href=”https://www.anthropic.com/news/claude-sonnet-4-5″ターゲット=”_ blank”>公式発表

このモデルは、実用的な実際のコンピュータータスクを実行するAIの能力をテストするスイートであるOsworldの新しいレコードも設定しました。

61.4%のスコアを達成しました。このパフォーマンスは、会社が共有するベンチマークによると、GoogleのGemini 2.5 ProやOpenaiのGPT-5などの競合他社よりも先に進んでいます。特に、人類自身のより高価なフラッグシップモデルであるOpus 4.1を超えています。 Aller Sonnet 4と同じ価格帯で優れた機能を提供することにより、人類は効率と価値を強く主張し、開発者がコストプレミアムなしで最高層のパフ​​ォーマンスにアクセスできるようにします。人類は、SONNET 4.5が30時間以上継続的に複雑なマルチステッププロジェクトで動作できると報告しています。初期の試験中、人類のAI研究者であるDavid HersheyはTechCrunchに、モデルがアプリケーションを構築するだけでなく、スタンドアップデータベースサービスを構築し、ドメイン名を購入し、独自の作業でSOC 2セキュリティ監査を実行したことを見ました。幅。財務、法律、医学、およびSTEMの専門家からの早期フィードバックは、Sonnet 4.5が以前のモデルよりもドメイン固有の知識と推論を劇的に優れていることを発見しました。 Hersheyが指摘したように、Claude Sonnet 4.5のベンチマークだけでのパフォーマンスをキャプチャすることは困難であり、単純なコード生成を超える現実世界の長距離課題に取り組むモデルの能力を強調しています。人類の開発者エコシステム。会社には強力な新しいツールのスイートを展開しましたおよびクロードのある堅牢性と自律的な心の込み、<ペディングペングラフで、クロードがより強力で、自律的な自律的なポイントを扱うことができます。同社の人気のコーディングエージェント。これには、各変更前にコード状態を自動的に保存する高度に要求された機能「チェックポイント」が含まれています。

これにより、開発者は以前のバージョンに即座に巻き戻すことができ、回復不可能なエラーを恐れることなく、より野心的で探索的な仕事を促進できます。 href=”https://marketplace.visualstudio.com/items?itemname=anthropic.claude-code”ターゲット=”_ blank”>ネイティブ対コード拡張、現在ベータ版です。これにより、Claudeコードの機能がIDEに直接関与し、専用のサイドバーとリアルタイムのインラインの違いを備えたより豊かなグラフィカルなインターフェイスを提供します。 href=”https://www.anthropic.com/news/context-management”ターゲット=”_ blank”>高度なコンテキスト管理ツール。 2つのアプローチには測定可能な影響があります。内部テストでは、これらのツールを組み合わせることで、複雑なタスクのエージェントパフォーマンスが39%改善され、100ターンのWeb検索評価でトークン消費量が84%減少し、エージェントが失敗するワークフローを完了できることが示されました。 href=”https://anthropic.com/engineering/building-agents-with-the-claude-agent-sdk”ターゲット=”_ blank”>クロードエージェントSDKのリリース。これは単なる図書館ではありません。これにより、開発者はクロードコードを強化するのと同じコアインフラストラクチャにアクセスできます。これにより、財務コンプライアンスからサイバーセキュリティまで、特殊なワークフロー用のカスタムエージェントの作成が可能になります。

この戦略は、会社の長期的なビジョンを直接サポートします。 CEOのDario Amodeiが以前に述べたように、「私たちは人間の開発者がエージェントの艦隊を管理できる世界に向かっていますが、人間の関与は品質管理にとって重要であると思います…」新しいSDKは、すべての開発者にとってそのビジョンを実現するための基礎的なステップです。 Sonnet 4.5は、「これまでで最も整合したフロンティアモデル」として。同社の公式システムカードは、サイコファンシー、欺ception、パワーシーキングなどの望ましくない行動の大幅な削減につながった広範な安全トレーニングを詳述しています。これには、潜在的に危険な出力の生成、特に化学的、生物学的、放射線学、および核(CBRN)武器に関連するものを検出および防止するために設計されたフィルターの展開が含まれます。同社は、Sonnet 4.5は、以前の世代のAIモデルを悩ませてきた注射攻撃やその他の脆弱性を促す傾向が大幅に低いと主張しています。これは、超競争的市場での戦略的な動きです。わずか数週間前、Openaiはエージェントコーディングの専門モデルであるGPT-5-Codexを発売しました。その製品リードであるAlexander Embiricosは、適応型インテリジェンスを強調し、「GPT-5-Codexはさらに1時間を費やす必要がある問題に5分を決定できる」と述べました。一方、GoogleのGeminiは最近、ICPC世界ファイナルで超人的な問題解決を実証しました。メタは、コードワールドモデルでも争いに参加しました。これは、単にそれを書くのではなく、コードロジックを理解することに焦点を当てた「ニューラルデバッガー」です。 CursorやWindsurfなどのパートナーからの早期フィードバックはポジティブです。

カーソルのCEO、Michael Truell、 「WindsurfのCEOであるJeff Wangが「新世代のコーディングモデル」と呼んでいましたが、開発者にとっては、価格設定はClaude Sonnet 4から100ドルあたり3ドル、100万ドルあたり15ドルの出力トークン15ドルから変化し、新しいキャパリティを直接上げています。その力を紹介するために、Anthropicはまた、