人類はAIコンテキストウィンドウレースを強化し、100万個のトークンを処理するためにClaude Sonnet 4モデルをアップグレードします。 現在はパブリックベータで利用可能で、この動きは、Openaiの400,000トークンGPT-5 APIとメタのメタの1,000万トークン4.
P> devernce force force force edation open llama 4を発表します。一度にコードベース全体または大規模なドキュメントセット。この業界全体のプッシュは、「コンテキスト腐敗」に関する最近の研究が、長い入力でモデルのパフォーマンスが悪化し、戦略に関する疑問が生じる可能性があることを示唆しているのと同じように生じています。
人類は、ミリオントーンクラブに加わります
クロードソネット4へのアップグレードは、容量で5倍の増加を表すクロードソネット4へのアップグレードになります。 href=”https://www.anthropic.com/news/1m-context”ターゲット=”_ blank”>公式人類API およびAmazon Bedrock。同社はまた、この機能が間もなくGoogle CloudのVertex AIに届き、エンタープライズ開発者の可用性を拡大することを確認しました。人類は、以前は非現実的だった複雑なデータ集約型アプリケーションの新しいクラスのこの強化を位置付けています。開発者にとって、これはコードベース全体をロードして大規模なコード分析を実行し、モデルがプロジェクトアーキテクチャを理解し、クロスファイル依存関係を特定できることを意味します。研究者とアナリストの場合、数百のソースにわたって完全なコンテキストを維持しながら、法的契約や技術仕様などの広範な文書セットの統合を可能にします。また、何百ものツールコールとマルチステップワークフローにわたって一貫性を維持できる、より洗練されたコンテキスト対応エージェントの作成を強化します。 Bolt.Newは、Claudeをブラウザベースの開発プラットフォームに統合する会社であり、モデルが競合他社の継続的なアウトパフォーマンスを強調しました。同社のCEO兼共同設立者であるエリックサイモンズは、「1Mコンテキストウィンドウを使用すると、開発者は実世界のコーディングに必要な高精度を維持しながら、大幅に大きなプロジェクトに取り組むことができると述べています。」
ロンドンに拠点を置くAIは、Maestroという名前のAIソフトウェアエンジニアリングパートナーを開発していると報告しています。 Eigent AIのCEO兼共同設立者であるSean Wardは、このアップデートを基本的な変化と説明し、「真の生産規模のエンジニアリング-実世界のコードベースでの経験的なセッション-エージェントソフトウェアエンジニアリングの新しいパラダイムを確立する」と述べています。競争力のある景観には、すでにシンガポールに拠点を置くミニマックスが含まれており、1月に400万人のトークンモデルを発表し、業界向けの高いバーを設定しています。また、ラマ4スカウトモデルが1,000万人のトークン容量を誇っているメタも含まれており、長いコンテキスト処理の境界をさらに押し上げます。ターゲット=”_ blank”>新機能の価格設定はティエルです。最大200,000トークンまでのプロンプトの場合、コストは100万ドルあたり3ドルです。より大きなプロンプトの場合、価格は100万個の入力トークンあたり6ドルに倍増します。この構造は、より長いコンテキストの計算負荷の増加を管理するように設計されています。
これは、最近発売されたGPT-5に対するOpenaiのアプローチとは対照的です。 Webインターフェイスには制限が小さくなりますが、GPT-5 APIは400,000トークンの最大コンテキストウィンドウを提供します。このトップティアは、APIユーザー専用に予約されており、深いドキュメント分析が必要な開発者を構築する開発者をターゲットにしています。 GoogleのGemini 2.5 Proは、最大100万トークンのコンテキストウィンドウをサポートしています。
「コンテキスト腐敗」の問題:より大きいですか?
業界は、より深いコンテキストウィンドウに向かって競いますが、多くの研究により、単に入力サイズを増やすことでより良いパフォーマンスが保証されないことが示唆されます。 Chroma Researchの最近のレポートでは、「Context Rot」の概念が導入され、「Biggerはより良い」物語に挑戦しました。代わりに、意味的に関連する情報から推論を行う能力について、18の主要なLLMをテストしました。これは、はるかに難しい作業です。研究者たちは、「これらの最小限の条件下でさえ、モデルのパフォーマンスは、多くの場合、驚くべき不均一な方法で入力の長さが増加するにつれてモデルのパフォーマンスが低下することを示しています。たとえば、モデルは、間接的な手がかりからキャラクターの位置を推測するように求められました。この研究では、GPTモデルは間違った答えを幻覚させる傾向があり、クロードモデルは曖昧さに直面したときに回答を拒否したことが多いことがわかりました。驚くべきことに、Chromaの研究では、テキストがランダムにシャッフルされたときにモデルがより良くパフォーマンスが発生し、入力構造がモデルの注意に大きく影響することを示唆しています。これらの発見は分離されていません。 MicrosoftとSalesforceの共同研究では、長い複数ターンの会話で39%のパフォーマンスが低下したと報告されています。メタのラマ4は、1,000万のトークンウィンドウにもかかわらず、長いコンテストのベンチマークで苦労していると伝えられています。これにより、AIの研究者Gary Marcusのように、アプローチ全体に疑問を投げかける人がいます。彼は、「純粋なスケーリングが私たちをAGIに導くと信じることができないという知的な誠実さを持つ人はいない」と主張した。
この証拠は、「コンテキストエンジニアリング」、つまり高品質で関連するデータの慎重なキュレーションが、文脈ウィンドウのブルート産の拡大よりも信頼できるAIにとってより重要であることを示唆している。開発者がこれらの強力な新しいツールにアクセスするにつれて、モデルが処理できるデータの量から、そのデータがどの程度準備されているかに焦点が移動する可能性があります。