Anthropic、SWEベンチスコア80.9%、価格66%下落のClaude Opus 4.5を発売

Anthropic は本日、Claude Opus 4.5 をリリースし、業界トップのコーディングスコアを主張し、コスト削減のための大幅なアーキテクチャの変更を導入しました。

価格設定を 66% の入力トークンあたり 5 ドルに引き下げ、「ツール検索」を導入してコンテキストのオーバーヘッドを 85% 削減することで、同社は自律型 AI エージェントに対する主要な経済的障壁を直接攻撃します。

このモデルは、SWE ベンチで 80.9% のスコアを達成しました。検証済み。Google と OpenAI の最近のリリースを僅差で上回り、複雑なソフトウェアエンジニアリングタスクのパフォーマンスの王冠を取り戻します。

ベンチマークウォーズ: 王冠の奪還

Opus 4.5 は、自律型ソフトウェアエンジニアリング能力を評価するための現在のゴールドスタンダードである SWE ベンチ検証で 80.9% のスコアを獲得しました。このスコアは、競合製品を上回っており、Google の Gemini 3 Pro 発売時の 76.2%、GPT-5.1-Codex-Max の 77.9% を上回っています。

内部評価によると、Anthropic 独自のエンジニアリング持ち帰りテストでは、このモデルが人間の候補者よりも高いスコアを獲得しています。「Opus 4.5 は、AI システムができることの一歩前進であり、仕事のやり方に対する大きな変化のプレビューです」と同社は発表の中で述べています。

コストと機能のバランスを取るために、開発者は新しい「エフォート」パラメータを使用して、API 呼び出し中にモデルの推論の深さを動的に調整できます。「中」のエフォートでは、Opus 4.5 は以前の Sonnet 4.5 モデルのピークパフォーマンスに匹敵しますが、消費する出力トークンは 76% 少なくなります。

自動化された問題解決の上限を押し上げるため、「高」のエフォート設定は Sonnet 4.5 の能力を 4.3 パーセント上回ります。 11 月は AI の分野で活発な月であることが証明されており、3 つの主要な研究所すべてが 18 日から 24 日の間に主力コーディングモデルを展開しました。

経済的変化: 価格設定とアーキテクチャ

高価な「推論」モデルの実行可能性に関する企業の懸念に対処し、Anthropic はモデルの価格を 100 万入力トークンあたり 5 ドル、出力トークン 100 万あたり 25 ドルと積極的に再設定しました。

Claude Opus 4.5 の紹介で詳しく説明されているように、前世代の Opus ($15/$75) と比較して、新しい料金は 66% 割引になります。

このアーキテクチャは内部的に「コンテキストの肥大化」問題に取り組んでいます。従来、50 を超えるツール定義をロードすると、単一のユーザークエリが処理されるまでに約 55,000 個のトークンが消費される可能性がありました。

高度なツールの使用に関するドキュメントによると、新しいシステムではこのダイナミックさが根本的に変わります。

「すべてのツール定義を事前にロードする代わりに、ツール検索ツールはオンデマンドでツールを検出します。クロードには、現在のタスクに実際に必要なツールのみが表示されます。」

「これは、完全なツールライブラリへのアクセスを維持しながら、トークンの使用量が 85% 削減されたことを示しています。内部テストでは、大規模なツールライブラリを使用する場合の MCP 評価の精度が大幅に向上していることがわかりました。」

これを補完するのが、モデルがチャットベースに依存するのではなくオーケストレーションコードを作成できるようにする「プログラマティックツール呼び出し」(PTC) です。

技術ドキュメントでは、PTC の仕組みについてさらに説明しています。

「クロードが一度に 1 つずつツールをリクエストして結果がコンテキストに返されるのではなく、クロードは複数のツールを呼び出し、その出力を処理し、実際にコンテキストウィンドウに入力される情報を制御するコードを作成します。」

「クロードはコードの作成に優れており、自然言語ツールの呼び出しではなく Python でオーケストレーションロジックを表現させることで、より多くのことを実現します。

PTC により、個々のツール呼び出しごとに往復の推論ステップが不要になり、待ち時間が大幅に短縮されます。モデルがコンテキストウィンドウに 1 KB の最終結果のみを返すため、200 KB の生の経費データなどの広範なデータセットの処理が可能になります。

「効果的なエージェントを構築するには、すべての定義を事前にコンテキストに詰め込むことなく、無制限のツールライブラリを使用して作業する必要がある」と Anthropic Engineering チームは述べました。

エコシステムの拡張: Chrome、Excel、安全性

コアモデルを超えて、「Claude Code」はベータ版から一般提供版に移行し、開発者のワークフローに完全なデスクトップアプリケーションを提供します。新しい統合により、モデルは Chrome ブラウザを直接制御できるようになり、テキストの生成を超えて、アクティブな調査やタスクの実行に移行できます。

[埋め込みコンテンツ]

財務モデリングをターゲットとした専用の Excel 統合により、モデルは数千行のスプレッドシートを操作できます。

Anthropic 社の研究製品管理責任者である Dianne Na Penn 氏は、この機能の重要性を強調しました。「覚えておくべき正しい詳細を知ることは、単にコンテキストウィンドウを長くすることを補完するものとして非常に重要です。」

[埋め込みコンテンツ]

安全性は引き続きリリースの中心的な柱です。クロードオーパス 4.5 システムカードは、化学、生物、放射線、核 (CBRN) リスクを軽減するための多大な投資を強調しています。

システムカードは、モデルの調整ステータスの概要を明確に示しています。

「Opus 4.5 は、当社が最も堅牢に調整したモデルです。

「Opus 4.5 は、業界の他のどのフロンティアモデルよりも迅速なインジェクションで騙すのが難しいです。」

市場の現実: エージェントの時代

ローンチの状況を説明すると、「11 月の AI ラッシュ」により、Google、OpenAI、Anthropic はすべて同時に自律型に向けて舵を切りました。エージェント。ナラティブは「チャットボット」から、24 時間以上タスクを継続できる「エージェント」に変わりました。

生のベンチマークでは Anthropic がリード (80.9%) していますが、その差は非常に薄く、上位 3 社の候補の差は 5 パーセント未満です。新しいアーキテクチャには重要なトレードオフが存在します。「ツール検索」では、すべてのツールがコンテキスト内で事前に読み込まれている場合と比較して、遅延が増加する可能性のある検索ステップが導入されています。

Codex-Max を使用した OpenAI の Windows ネイティブ最適化とは異なり、Anthropic はプラットフォームに依存しないデスクトップアプローチに賭けています。メモリ管理が新たな戦場として浮上しており、OpenAI は「コンパクション」を利用し、Anthropic は「ツール検索」を導入して同じコンテキストウィンドウのボトルネックを解決しています。

Anthropic、SWEベンチスコア80.9%、価格66%下落のClaude Opus 4.5を発売

Published by All Things Windows on November 24, 2025

ベンチマークウォーズ: 王冠の奪還

経済的変化: 価格設定とアーキテクチャ

エコシステムの拡張: Chrome、Excel、安全性

市場の現実: エージェントの時代

IT Info

OpenAI、GPT-5 Mini を搭載した「リサーチファースト」ショッピングエージェントを開始、インスタントチェックアウトを一時停止

IT Info

サム・アルトマンとジョニー・アイブがOpenAIデバイスについて沈黙を破る:プロトタイプが完成、リリースまで「2年以内」

IT Info

Pandora で曲をダウンロードする方法

Anthropic、SWEベンチスコア80.9%、価格66%下落のClaude Opus 4.5を発売

Published by All Things Windows on November 24, 2025

ベンチマーク ウォーズ: 王冠の奪還

経済的変化: 価格設定とアーキテクチャ

エコシステムの拡張: Chrome、Excel、安全性

市場の現実: エージェントの時代

Related Posts

IT Info

OpenAI、GPT-5 Mini を搭載した「リサーチファースト」ショッピング エージェントを開始、インスタント チェックアウトを一時停止

IT Info

サム・アルトマンとジョニー・アイブがOpenAIデバイスについて沈黙を破る:プロトタイプが完成、リリースまで「2年以内」

IT Info

Pandora で曲をダウンロードする方法

ベンチマークウォーズ: 王冠の奪還

OpenAI、GPT-5 Mini を搭載した「リサーチファースト」ショッピングエージェントを開始、インスタントチェックアウトを一時停止