Anthropic正在加強AI上下文窗口競賽,升級其Claude Sonnet 4型號以處理100萬個令牌。 現在在公共beta 中可用,此舉使人類直接競爭與OpenAI的400,000 token token token token-5 api and Meta的1000萬個tokent-token Lllama and Flowits in flower of Fobspity propcell in flome of Flower宣布了公司的宣布。一次分析整個代碼庫或大量文檔。 This industry-wide push comes just as recent studies on “Context Rot”suggest model performance can worsen with long inputs, raising questions about the strategy.

Anthropic Joins the Million-Token Club

The upgrade to Claude Sonnet 4, representing a fivefold increase in capacity, is now accessible in public beta through the 官方擬人化API 和Amazon Bedrock。該公司還確認該功能即將推出Google Cloud的頂點AI,從而擴大了企業開發人員的可用性。擬人化正在為一類新的複雜,數據密集型應用程序定位這種增強。對於開發人員而言,這意味著能夠通過加載整個代碼庫來執行大規模代碼分析,從而使模型可以理解項目體系結構並識別跨文件依賴關係。對於研究人員和分析師,它允許綜合廣泛的文件集,例如法律合同或技術規格,同時在數百個來源之間保持完整的環境。它還賦予了創建更複雜的上下文感知代理的能力,這些代理可以保持數百個工具呼叫和多步工作流程的連貫性。

早期採用者讚揚了對其對現實世界項目的影響的新能力。 Bolt.New是一家將Claude集成到基於瀏覽器的開發平台的公司,強調了該模型的持續超越競爭對手的表現。該公司的首席執行官兼聯合創始人埃里克·西蒙斯(Eric Simons)表示,“使用1M上下文窗口,開發人員現在可以從事更大的項目工作,同時保持我們對現實世界編碼所需的高準確性。”

類似地,倫敦的IGENT AI,基於倫敦的IGENT AI,該AI正在開發一個名為Maestro的AI軟件工程合作夥伴,報告了名為Maestro的AI Software Engineer,報告了一種變革性的影響。 IGENT AI的首席執行官兼聯合創始人Sean Ward將其描述為基本轉變,並指出它可以“真正的生產規模工程-現實代碼庫的數日會議-建立一個新的代理軟件工程範式。窗口。競爭性格局已經包括總部位於新加坡的Minimax,該景觀在1月份推出了400萬代價的模型,為該行業設定了高標準。它還包括Meta,其Llama 4偵察兵模型具有1000萬代幣的能力,從而進一步推動了長期處理的界限。 href=“ https://www.anththropic.com/pricing#api” target=“ _ blank”>新功能的定價是分層。對於最高200,000個令牌的提示,成本為每百萬個輸入令牌3美元。對於較大的提示,價格將投入令牌翻了一番,達到每百萬美元。該結構旨在管理更長的上下文的計算負載。

這與OpenAI最近推出的GPT-5的方法形成對比。儘管其Web接口的限制較小,但GPT-5 API提供了40萬個令牌的最大上下文窗口。該頂級層專為API用戶保留,針對開發人員構建需要深入文檔分析的應用程序。 Google的Gemini 2.5 Pro支持上下文窗口高達100萬個令牌。 

“上下文腐爛”問題:

雖然行業朝著越來越多的上下文窗口競爭時,越來越多的研究表明,簡單地增加輸入大小並不能保證更好的性能。 Chroma Research的最新報告介紹了“上下文腐爛”的概念,挑戰了“更大的是更好”的敘述。

該研究超越了簡單的“ Haystack”測試中的“針頭”測試,該測試僅衡量數據檢索。取而代之的是,它測試了18個領先的LLM,以通過語義相關信息進行推斷,這是一項更加困難的任務。研究人員指出:“我們證明,即使在這些最小的條件下,模型的性能也會隨著輸入長度的增加而降低,通常以令人驚訝和不均勻的方式降低。 “該研究還發現,GPT模型傾向於幻覺錯誤的答案,而Claude模型在面對歧義時通常拒絕回答。

出乎意料的是,Chroma研究發現,Chroma的研究發現,當文本隨機改組時,模型的性能更好,表明輸入結構受到影響的影響。這些發現不是孤立的。 Microsoft和Salesforce的一項聯合研究報告說,長期多轉的對話的性能下降了39%。

甚至具有巨大理論限制的模型也面臨著實踐挑戰。據報導,梅塔(Meta)的美洲駝(Llama 4)儘管有1000萬個令牌窗口,但仍在長期基准上掙扎。這導致一些人,例如AI研究員加里·馬庫斯(Gary Marcus),質疑整個方法。他認為:“沒有任何具有智力完整性的人仍然可以相信純粹的縮放會使我們進入AGI。 ”

這一證據表明,“上下文工程”(高質量的相關數據的仔細策劃-對可靠的AI比野蠻的上下文窗口擴展更為重要。隨著開發人員可以訪問這些功能強大的新工具,重點可能會從模型可以處理的數據轉移到準備好數據。

Categories: IT Info