Anthropic は本日、Claude Opus 4.5 をリリースし、業界トップのコーディング スコアを主張し、コスト削減のための大幅なアーキテクチャの変更を導入しました。

価格設定を 66% の入力トークンあたり 5 ドルに引き下げ、「ツール検索」を導入してコンテキストのオーバーヘッドを 85% 削減することで、同社は自律型 AI エージェントに対する主要な経済的障壁を直接攻撃します。

このモデルは、SWE ベンチで 80.9% のスコアを達成しました。検証済み。Google と OpenAI の最近のリリースを僅差で上回り、複雑なソフトウェア エンジニアリング タスクのパフォーマンスの王冠を取り戻します。

ベンチマーク ウォーズ: 王冠の奪還

Opus 4.5 は、自律型ソフトウェア エンジニアリング能力を評価するための現在のゴールド スタンダードである SWE ベンチ検証で 80.9% のスコアを獲得しました。このスコアは、競合製品を上回っており、Google の Gemini 3 Pro 発売時の 76.2%、GPT-5.1-Codex-Max の 77.9% を上回っています。

内部評価によると、Anthropic 独自のエンジニアリング持ち帰りテストでは、このモデルが人間の候補者よりも高いスコアを獲得しています。 「Opus 4.5 は、AI システムができることの一歩前進であり、仕事のやり方に対する大きな変化のプレビューです」と同社は発表の中で述べています。

コストと機能のバランスを取るために、開発者は新しい「エフォート」パラメータを使用して、API 呼び出し中にモデルの推論の深さを動的に調整できます。 「中」のエフォートでは、Opus 4.5 は以前の Sonnet 4.5 モデルのピーク パフォーマンスに匹敵しますが、消費する出力トークンは 76% 少なくなります。

自動化された問題解決の上限を押し上げるため、「高」のエフォート設定は Sonnet 4.5 の能力を 4.3 パーセント上回ります。 11 月は AI の分野で活発な月であることが証明されており、3 つの主要な研究所すべてが 18 日から 24 日の間に主力コーディング モデルを展開しました。

経済的変化: 価格設定とアーキテクチャ

高価な「推論」モデルの実行可能性に関する企業の懸念に対処し、Anthropic はモデルの価格を 100 万入力トークンあたり 5 ドル、出力トークン 100 万あたり 25 ドルと積極的に再設定しました。

Claude Opus 4.5 の紹介で詳しく説明されているように、前世代の Opus ($15/$75) と比較して、新しい料金は 66% 割引になります。

このアーキテクチャは内部的に「コンテキストの肥大化」問題に取り組んでいます。従来、50 を超えるツール定義をロードすると、単一のユーザー クエリが処理されるまでに約 55,000 個のトークンが消費される可能性がありました。

高度なツールの使用に関するドキュメントによると、新しいシステムではこのダイナミックさが根本的に変わります。

「すべてのツール定義を事前にロードする代わりに、ツール検索ツールはオンデマンドでツールを検出します。クロードには、現在のタスクに実際に必要なツールのみが表示されます。」

「これは、完全なツール ライブラリへのアクセスを維持しながら、トークンの使用量が 85% 削減されたことを示しています。内部テストでは、大規模なツール ライブラリを使用する場合の MCP 評価の精度が大幅に向上していることがわかりました。」

これを補完するのが、モデルがチャットベースに依存するのではなくオーケストレーション コードを作成できるようにする「プログラマティック ツール呼び出し」(PTC) です。

技術ドキュメントでは、PTC の仕組みについてさらに説明しています。

「クロードが一度に 1 つずつツールをリクエストして結果がコンテキストに返されるのではなく、クロードは複数のツールを呼び出し、その出力を処理し、実際にコンテキスト ウィンドウに入力される情報を制御するコードを作成します。」

「クロードはコードの作成に優れており、自然言語ツールの呼び出しではなく Python でオーケストレーション ロジックを表現させることで、より多くのことを実現します。

PTC により、個々のツール呼び出しごとに往復の推論ステップが不要になり、待ち時間が大幅に短縮されます。モデルがコンテキスト ウィンドウに 1 KB の最終結果のみを返すため、200 KB の生の経費データなどの広範なデータセットの処理が可能になります。

「効果的なエージェントを構築するには、すべての定義を事前にコンテキストに詰め込むことなく、無制限のツール ライブラリを使用して作業する必要がある」と Anthropic Engineering チームは述べました。

エコシステムの拡張: Chrome、Excel、安全性

コア モデルを超えて、 「Claude Code」はベータ版から一般提供版に移行し、開発者のワークフローに完全なデスクトップ アプリケーションを提供します。新しい統合により、モデルは Chrome ブラウザを直接制御できるようになり、テキストの生成を超えて、アクティブな調査やタスクの実行に移行できます。

[埋め込みコンテンツ]

財務モデリングをターゲットとした専用の Excel 統合により、モデルは数千行のスプレッドシートを操作できます。 

Anthropic 社の研究製品管理責任者である Dianne Na Penn 氏は、この機能の重要性を強調しました。「覚えておくべき正しい詳細を知ることは、単にコンテキスト ウィンドウを長くすることを補完するものとして非常に重要です。」

[埋め込みコンテンツ]

安全性は引き続きリリースの中心的な柱です。 クロード オーパス 4.5 システム カードは、化学、生物、放射線、核 (CBRN) リスクを軽減するための多大な投資を強調しています。

システム カードは、モデルの調整ステータスの概要を明確に示しています。

「Opus 4.5 は、当社が最も堅牢に調整したモデルです。

「Opus 4.5 は、業界の他のどのフロンティア モデルよりも迅速なインジェクションで騙すのが難しいです。」

市場の現実: エージェントの時代

ローンチの状況を説明すると、「11 月の AI ラッシュ」により、Google、OpenAI、Anthropic はすべて同時に自律型に向けて舵を切りました。エージェント。ナラティブは「チャットボット」から、24 時間以上タスクを継続できる「エージェント」に変わりました。

生のベンチマークでは Anthropic がリード (80.9%) していますが、その差は非常に薄く、上位 3 社の候補の差は 5 パーセント未満です。新しいアーキテクチャには重要なトレードオフが存在します。「ツール検索」では、すべてのツールがコンテキスト内で事前に読み込まれている場合と比較して、遅延が増加する可能性のある検索ステップが導入されています。

Codex-Max を使用した OpenAI の Windows ネイティブ最適化とは異なり、Anthropic はプラットフォームに依存しないデスクトップ アプローチに賭けています。メモリ管理が新たな戦場として浮上しており、OpenAI は「コンパクション」を利用し、Anthropic は「ツール検索」を導入して同じコンテキスト ウィンドウのボトルネックを解決しています。

Categories: IT Info