Devin 代理背後的人工智能實驗室 Cognition 推出了 SWE-1.5,這是一種新的高速編碼模型,通過優先考慮性能和速度來挑戰市場。

該模型於 10 月 29 日宣布,現已在 Cognition 於 7 月收購的 Windsurf IDE 中提供。該公司聲稱,得益於與推理提供商 Cerebras 的合作,SWE-1.5 的運行速度比 Anthropic 的 Sonnet 4.5 快 13 倍。

該版本發布之際,競爭對手 Cursor 推出了自己的快速模型 Composer,這標誌著人工智能代理公司正在構建專有模型以創建緊密集成、低延遲的開發人員體驗並減少對第三方 API 的依賴的新趨勢。

官方公告,“開發人員不必在思考速度快的人工智能和思考良好的人工智能之間做出選擇。”

這一理念是 SWE-1.5 的基礎,Cognition 將其描述為具有數千億參數的“前沿規模”模型,專門設計用於消除這種妥協並提供精英性能和一流的性能速度。

該模型最引人注目的特點是其原始速度,這是與推理專家 Cerebras 密切合作的結果。 Cognition 聲稱此次合作使 SWE-1.5 實現了顯著的延遲,並表示:“它還設定了新的速度標準:我們與 Cerebras 合作,以高達 950 tok/s 的速度提供服務,比 Haiku 4.5 快 6 倍,比 Sonnet 4.5 快 13 倍。”

這一性能飛躍旨在讓開發人員在 5 秒內完成任務,保持“心流狀態”,這是避免該公司所謂的“心流狀態”的關鍵閾值。 “半異步死亡之谷。”

優化工作超出了模型本身的範圍,因為它的速度揭示了 Windsurf IDE 中的新瓶頸,迫使團隊重寫 lint 檢查和命令執行管道等關鍵組件,以將系統開銷每步最多減少兩秒。

雖然 Cognition 的速度聲明很大膽,但該公司還提供了來自 SWE-Bench Pro 基準測試的數據來證實其性能。性能。

在由 41 個不同代碼存儲庫中的 731 個困難代理編碼任務組成的基準測試中,SWE-1.5 展示了其旨在克服的權衡。

雖然 Anthropic 的 Sonnet 4.5 取得了 43.60% 的最高分,但它的速度僅為 69 個令牌/秒。相比之下,SWE-1.5 提供了 40.08% 的極具競爭力的分數,實現了接近前沿的性能,但速度高達 950 個令牌/秒,速度提高了近 14 倍。

這使該模型成為需要高質量結果且不會出現其他頂級模型的工作流程中斷延遲的開發人員的強大工具。

基準測試結果顯示,SWE-1.5 的性能優於其他幾個值得注意的模型模型的準確性和速度。它超越了 Anthropic 的 Haiku 4.5(在 142 tok/s 時得分為 39.45%)和高級版本的 GPT-5(在 43 tok/s 時得分為 36.30%)。

新模型也代表了 Cognition 的一次巨大的代際飛躍,得分是其前身 SWE-1 的兩倍多,後者在 39 tok/s 時得分僅為 16.55%。這些數據強化了 Cognition 的中心論點:SWE-1.5 提供的性能可與市場上最好的產品競爭,同時設定了全新的速度標準。

支撐新模式的是對尖端基礎設施的大規模投資。 Cognition 透露,SWE-1.5 是在“由數千個 GB200 NVL72 芯片組成的最先進集群”上進行訓練的,並聲稱它可能是“第一個在新一代 GB200 上進行訓練的公共生產模型。”

在 6 月初訪問該硬件,當時其固件還不成熟,需要團隊從頭開始構建更強大的健康檢查和容錯訓練系統。

這個強大的硬件對於強化強化學習 (RL) 技術,用於專門針對現代軟件工程中涉及的複雜、多步驟任務對模型進行微調。

強化的影響

SWE-1.5 的推出恰逢 AI 編碼環境 Cursor 發布了自己的專有高速模型 Composer。

兩個公告之間的相似之處不容忽視,並表明 AI 開發工具中存在明顯的戰略融合市場。

兩家公司都在大規模採用強化學習。 Cognition 利用名為 otterlink 的虛擬機管理程序在數以萬計的並發高保真環境(包括代碼執行和網頁瀏覽)中運行 RL 部署。

這種方法與 Cursor 為自己的 RL 訓練運行“數十萬個並髮沙盒編碼環境”的描述驚人地相似。

這種共享方法凸顯了一種日益增長的信念,即要構建真正有效的編碼代理,公司必須針對自己的自定義工具和模型進行微調。現實世界的場景。

一位 Cursor ML 研究人員制定了這一策略,並表示:“現在只有最低限度的智能才能提高工作效率,如果能將其與速度結合起來,那就太棒了。”

另一個相似之處是缺乏透明度。 Cognition 和 Cursor 都對其新模型的基礎保密,僅提及“領先的開源基礎模型”。

這種保密使得獨立評估變得困難,並且依賴於用戶對公司內部基準的信任。然而,早期的印像是積極的。人工智能專家兼博主Simon Willison 在測試新模型後指出,“這個模型感覺非常快。與 Cerebras 合作進行推理是一個非常明智的舉動。”

來自 Windsurf 的 Ashes,一種新策略

利用資產自從高調收購 Windsurf 以來,Cognition 正在建立一個成熟的品牌和產品。

新模型是 SWE(軟件工程)系列的演變,該項目是由原始 Windsurf 團隊於 2025 年 5 月發起的,之後被 OpenAI 收購的計劃失敗,Cognition 介入作為救援者。

通過將 SWE-1.5 直接集成到 Windsurf IDE,Cognition 正在執行共同設計的願景模型、代理工具和用戶體驗作為一個統一的系統。該公司認為,這種整體方法對於性能至關重要。

在其聲明中,Cognition 解釋道,“選擇編碼代理不僅僅與模型本身有關。周圍的編排也會對模型的性能產生巨大影響。”

這種策略使公司能夠快速迭代,利用 Windsurf 環境的反饋來調整工具和提示,然後在更新的系統上重新訓練模型。

這是一個賭注,即使沒有市場上絕對最大的型號,集成的高速體驗也可以培養忠實的用戶群。隨著開發人員桌面爭奪戰的加劇,在無縫工作流程中提供智能和速度的能力可能成為關鍵的差異化因素。

Categories: IT Info