新しい研究は、AI業界の「Biggerはより良い」コンテキストウィンドウに対するアプローチに挑戦しています。 AIベクターデータベースを開発する企業であるChroma Researchは、2025年7月に“context rot”レポートを公開しました。単純なデータ取得だけでなく、情報を過負荷にしたときの意味理解。これらの調査結果は、GoogleやMinimaxなどの企業からの数百万のトークンウィンドウへの競争に疑問を呈しています。これは、記録的な4Mトークンのコンテキストウィンドウを提供します。

この調査では、効果的な「コンテキストエンジニアリング」(入力データの慎重なキュレーション)が、より多くの生の情報を提供するよりも信頼できるAIの結果を達成するために重要であることを示唆しています。著者は、「これらの最小限の条件下でさえ、モデルのパフォーマンスは、多くの場合、驚くべき不均一な方法で入力長が増加するにつれてモデルのパフォーマンスが低下する」と述べ、問題の微妙な性質を強調しています。 src=”data:image/svg+xml; nitro-empty-id=mty0mdoxnza1-1; base64、phn2zyb2awv3qm94psiwidagmte4osa3ot aiihdpzhropsixmtg5iibozwlnahq9ijc5mcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

「コンテキスト腐敗」の調査結果

Chromaの研究は標準を超えて移動しますは、モデルの正確なテキストを見つける能力のみを測定します。代わりに、意味的に関連するが同一ではない情報から推論を行う能力について18の主要なモデルをテストしました。たとえば、モデルには「ヘルシンキにかかったキャラクター」と尋ねられる可能性があります。ソースのテキストが「キアスマ博物館の隣に住んでいる」としか述べていないとき。正しく答えるには、モデルが世界の知識を使用して接続を推測する必要があります。これは、単純なキーワードマッチングよりもはるかに難しいタスクです。

これらのセマンティックテストでパフォーマンスは大幅に低下しました。この問題は、「ディストラクタ」を追加することにより悪化しました。この研究は、GPTモデルは間違った答えを幻覚にする傾向があり、クロードモデルはそのような曖昧さに直面したときに答えることをしばしば拒否したことを指摘しました。テキストが論理的に構造化され、一貫性がある場合、パフォーマンスは悪化しました。これは、そのコンテンツだけでなく入力の構造がモデルの注意に影響を与えることを示唆しています。

チームは、 longmemeval benchmark でパフォーマンスをテストしました。モデルは、最も関連性の高い抜粋のみが与えられたときと比較して、完全な会話履歴を与えられた場合、一貫して悪化し、「コンテキスト腐敗」効果をさらに証明しました。彼らは、長いコンテキスト処理において同様の制限を特定した他の主要な研究室からの多くの研究機関と一致しています。これは、現在の世代のLLMSに関する体系的な問題を示しています。

2025年5月、Google DeepmindのNikolay Savinovは、無関係なコンテンツのトリミングがモデルの精度に常に有益であると説明しました。彼は、モデルが手元のタスクにとって最も重要なことに限定的な注意を集中させるのに役立つと主張しました。モデルは、コンテキストの長さが増加するにつれて、大きなパフォーマンスの低下に苦しみました。これは、単純なキーワードマッチングを避けたタスクに特に当てはまりました。マルチターンダイアログのテストでは、ユーザー要件が多くのステップで綴られたため、精度は90%の最高値からわずか51%に低下しました。 src=”data:image/svg+xml; nitro-empty-id=mty0odoxmtqz-1; base64、phn2zyb2awv3qm94psiwidagmti4mca3nzgi ihdpzhropsixmjgwiibozwlnahq9ijc3ocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

MetaのLlama 4 Maverickのように、巨大な理論的コンテキストウィンドウを持つモデルでさえ、実際に苦労しています。 1,000万トークンの技術的能力にもかかわらず、

これにより、「コンテキストエンジニアリング」に重点が置かれています。これは、情報の前処理を含む意図的な戦略であり、LLMに最適な理解のために構造化された最も関連性の高い高信号データのみを提供します。コンテキストウィンドウを増やすだけのブルートフォースの方法とはまったく対照的です。

Chromaの研究者は、このシフトを強調することで報告を締めくくります。 「当社の結果は、現在のベンチマークを超えたより厳密な長いコンテストの評価の必要性と、コンテキストエンジニアリングの重要性と、信頼できるAIアプリケーションを構築しようとする開発者の新しい焦点を指し示していることを強調しています。 href=”https://github.com/chitha-core/context-rot”ターゲット=”_ blank”> Chroma Research WebサイトおよびGithub

で公開されています。

Categories: IT Info