Anthropic は本日、Claude Opus 4.5 をリリースし、業界トップのコーディング スコアを主張し、コスト削減のための大幅なアーキテクチャの変更を導入しました。
価格設定を 66% の入力トークンあたり 5 ドルに引き下げ、「ツール検索」を導入してコンテキストのオーバーヘッドを 85% 削減することで、同社は自律型 AI エージェントに対する主要な経済的障壁を直接攻撃します。
このモデルは、SWE ベンチで 80.9% のスコアを達成しました。検証済み。Google と OpenAI の最近のリリースを僅差で上回り、複雑なソフトウェア エンジニアリング タスクのパフォーマンスの王冠を取り戻します。
ベンチマーク ウォーズ: 王冠の奪還
Opus 4.5 は、自律型ソフトウェア エンジニアリング能力を評価するための現在のゴールド スタンダードである SWE ベンチ検証で 80.9% のスコアを獲得しました。このスコアは、競合製品を上回っており、Google の Gemini 3 Pro 発売時の 76.2%、GPT-5.1-Codex-Max の 77.9% を上回っています。
内部評価によると、Anthropic 独自のエンジニアリング持ち帰りテストでは、このモデルが人間の候補者よりも高いスコアを獲得しています。 「Opus 4.5 は、AI システムができることの一歩前進であり、仕事のやり方に対する大きな変化のプレビューです」と同社は発表の中で述べています。
コストと機能のバランスを取るために、開発者は新しい「エフォート」パラメータを使用して、API 呼び出し中にモデルの推論の深さを動的に調整できます。 「中」のエフォートでは、Opus 4.5 は以前の Sonnet 4.5 モデルのピーク パフォーマンスに匹敵しますが、消費する出力トークンは 76% 少なくなります。
自動化された問題解決の上限を押し上げるため、「高」のエフォート設定は Sonnet 4.5 の能力を 4.3 パーセント上回ります。 11 月は AI の分野で活発な月であることが証明されており、3 つの主要な研究所すべてが 18 日から 24 日の間に主力コーディング モデルを展開しました。
経済的変化: 価格設定とアーキテクチャ
高価な「推論」モデルの実行可能性に関する企業の懸念に対処し、Anthropic はモデルの価格を 100 万入力トークンあたり 5 ドル、出力トークン 100 万あたり 25 ドルと積極的に再設定しました。
Claude Opus 4.5 の紹介で詳しく説明されているように、前世代の Opus ($15/$75) と比較して、新しい料金は 66% 割引になります。
このアーキテクチャは内部的に「コンテキストの肥大化」問題に取り組んでいます。従来、50 を超えるツール定義をロードすると、単一のユーザー クエリが処理されるまでに約 55,000 個のトークンが消費される可能性がありました。
高度なツールの使用に関するドキュメントによると、新しいシステムではこのダイナミックさが根本的に変わります。
「すべてのツール定義を事前にロードする代わりに、ツール検索ツールはオンデマンドでツールを検出します。クロードには、現在のタスクに実際に必要なツールのみが表示されます。」
「これは、完全なツール ライブラリへのアクセスを維持しながら、トークンの使用量が 85% 削減されたことを示しています。内部テストでは、大規模なツール ライブラリを使用する場合の MCP 評価の精度が大幅に向上していることがわかりました。」
これを補完するのが、モデルがチャットベースに依存するのではなくオーケストレーション コードを作成できるようにする「プログラマティック ツール呼び出し」(PTC) です。
技術ドキュメントでは、PTC の仕組みについてさらに説明しています。
「クロードが一度に 1 つずつツールをリクエストして結果がコンテキストに返されるのではなく、クロードは複数のツールを呼び出し、その出力を処理し、実際にコンテキスト ウィンドウに入力される情報を制御するコードを作成します。」
「クロードはコードの作成に優れており、自然言語ツールの呼び出しではなく Python でオーケストレーション ロジックを表現させることで、より多くのことを実現します。
PTC により、個々のツール呼び出しごとに往復の推論ステップが不要になり、待ち時間が大幅に短縮されます。モデルがコンテキスト ウィンドウに 1 KB の最終結果のみを返すため、200 KB の生の経費データなどの広範なデータセットの処理が可能になります。
「効果的なエージェントを構築するには、すべての定義を事前にコンテキストに詰め込むことなく、無制限のツール ライブラリを使用して作業する必要がある」と Anthropic Engineering チームは述べました。
エコシステムの拡張: Chrome、Excel、安全性
コア モデルを超えて、 「Claude Code」はベータ版から一般提供版に移行し、開発者のワークフローに完全なデスクトップ アプリケーションを提供します。新しい統合により、モデルは Chrome ブラウザを直接制御できるようになり、テキストの生成を超えて、アクティブな調査やタスクの実行に移行できます。
[埋め込みコンテンツ]
財務モデリングをターゲットとした専用の Excel 統合により、モデルは数千行のスプレッドシートを操作できます。
Anthropic 社の研究製品管理責任者である Dianne Na Penn 氏は、この機能の重要性を強調しました。「覚えておくべき正しい詳細を知ることは、単にコンテキスト ウィンドウを長くすることを補完するものとして非常に重要です。」
[埋め込みコンテンツ]
安全性は引き続きリリースの中心的な柱です。 クロード オーパス 4.5 システム カードは、化学、生物、放射線、核 (CBRN) リスクを軽減するための多大な投資を強調しています。
システム カードは、モデルの調整ステータスの概要を明確に示しています。
「Opus 4.5 は、当社が最も堅牢に調整したモデルです。
「Opus 4.5 は、業界の他のどのフロンティア モデルよりも迅速なインジェクションで騙すのが難しいです。」
市場の現実: エージェントの時代
ローンチの状況を説明すると、「11 月の AI ラッシュ」により、Google、OpenAI、Anthropic はすべて同時に自律型に向けて舵を切りました。エージェント。ナラティブは「チャットボット」から、24 時間以上タスクを継続できる「エージェント」に変わりました。
生のベンチマークでは Anthropic がリード (80.9%) していますが、その差は非常に薄く、上位 3 社の候補の差は 5 パーセント未満です。新しいアーキテクチャには重要なトレードオフが存在します。「ツール検索」では、すべてのツールがコンテキスト内で事前に読み込まれている場合と比較して、遅延が増加する可能性のある検索ステップが導入されています。
Codex-Max を使用した OpenAI の Windows ネイティブ最適化とは異なり、Anthropic はプラットフォームに依存しないデスクトップ アプローチに賭けています。メモリ管理が新たな戦場として浮上しており、OpenAI は「コンパクション」を利用し、Anthropic は「ツール検索」を導入して同じコンテキスト ウィンドウのボトルネックを解決しています。