AI初創公司Qodo進入了猛烈的“基準戰爭”,以編碼至高無上。 8月11日,該公司宣布其新代理Qodo Command在SWE-Bench驗證的測試中得分令人印象深刻71.2%。該結果將Qodo直接推向了一個由人類和Openai等巨人主導的競爭領域。 Qodo命令建立在Langgraph上,並允許使用OpenAI,Anthropic和其他編碼任務的型號進行編碼。

公告是一周令人眼花and亂的一周。 Anthropic和Openai最近互相跨越最高點,分別佔74.5%和74.9%。基準優勢的無情競賽正在迅速上升。

這場高風險的競爭是在現實世界中的絆腳石的背景下展開的。諸如OpenAI的新GPT-5之類的高分模型面臨著困難的公開發射,引發了有關基準成功是否真正轉化為可靠的,可提供生產的性能的關鍵問題。

Swe-Bench Gauntlet:每隔一周一次新的編碼世界冠軍

在swe-bench排行榜上 升級為“高級競爭”的次數升級為“最佳編碼”,這是一位最佳的編輯,這是一位最佳的編輯,這是一位最佳的編輯。該行業頂級實驗室的一系列快速通知突出顯示了A

強烈的重點是出於某種原因。與合成測試不同,這是一項苛刻的評估,反映了現實世界軟件工程。每個任務均來自12個廣泛使用的開源Python存儲庫之一中發現的實際GITHUB問題。為了取得成功,AI代理必須推理,計劃和正確編輯代碼,通常會跨多個文件,就像人類開發人員無需任何快捷方式一樣。

這場基準戰爭的最新一輪戰爭始於8月5日,當時Anthropic宣布了其新的Claude Opus 4.1的新成績為74.5%。該分數代表了其前任克勞德4 Opus在幾個月前發布的72.5%的巨大飛躍,這表明進展了顯著。就在幾天后,即8月7日,Openai反駁了其備受期待的GPT-5型號系列。該公司聲稱,其新旗艦店以74.9%的成功率險些超過了競爭對手,立即將克勞德4.1奪走了,並佔領了自身的首位。

現在,Qodo的71.2%得分進入了這個動蕩的領域。雖然不是最高的分數,但對於一個較小的創業公司來說,這是一項艱鉅的成就,將其Qodo指揮代理人牢牢地置於與行業的泰坦隊同一聯盟中。結果證明,創新的建築方法可以與較大的實驗室的純粹規模競爭。

這種令人眼花spection亂的索賠繼承在開發人員社區中引起了極大的混亂。 SWE Bench官方網站已成為一個滯後指標,無法與公司新聞稿保持同步。公開顯示的排行榜仍顯示出較舊的,取代的分數,這使其成為當前最新的最新來源。

進一步複雜化問題,整個層次結構都受到獨立分析的質疑。例如,許多專家表明,在某些條件下對Anthropic不太強大的Claude Sonnet 4強大的Claude Sonnet 4提出了不同。這種差異提出了有關測試方法的關鍵問題,以及排行榜的頂部是否像公告所建議的那樣清晰。 href=“ https://www.qodo.ai/blog/qodo-command-swe-bench-verified/” target=“ _ black”>從地面上進行工程進行現實世界軟件工程。 Qodo命令代理不是依靠單個單片模型,而是建立在Langgraph上,Langgraph是一個強大的框架,可以創建模塊化,狀態和周期性工作流程。該基礎提供了解決複雜的多步驟問題所需的速度和靈活性。

使用langgraph是關鍵區別。它允許Qodo作為圖形將復雜操作編排,其中每個步驟都是可配置的節點。這種模塊性不僅是理論上的優勢。它允許團隊從其現有的IDE擴展名(Qodo Gen)中重用並擴展了驗證的組件。這包括經過戰鬥測試的模塊,用於代碼分析,摘要和安全掃描,可以在新代理中毫不費力地重新使用。

代理商的核心強度之一是其高級上下文摘要。 Qodo的系統認識到,在復雜的多文件代碼庫中取得成功不僅需要將RAW文件饋送到語言模型。它通過首先將分層代碼提煉成精確的高信號摘要來解決此問題,從而確保LLM在其推理過程的每個步驟中僅接收最相關和結構化的上下文。

這是與紀律處分的“計劃-限制”的執行方式。在編寫任何代碼之前,代理商會深入分析用戶的目標,並將其分解為一系列可行的子任務系列。這為LLM創建了可靠的路線圖。至關重要的是,任務完成不僅是根據最終輸出來判斷的,而且嚴格遵守該原始計劃。任何檢測到的縫隙觸發反饋和重試循環,直到達到完全對齊為止。

為了確保穩健性,Qodo命令具有智能重試和後背機制。當工具調用失敗時,代理不會簡單地停止;它適應。系統會自動提取錯誤反饋,調用LLM來診斷故障,然後智能調整工具的參數或結構。該代理商有權將通話重試三次,如果仍然不可能做出決議,它可以轉向替代策略以確保進步的持續。

這種代理推理將由強大的開發人員級工具提供支持,使其能夠像專家人類開發人員一樣運行。其工具集包括:

文件系統:用於閱讀,寫作和編輯文件的標準工具。認識到即使是最新的模型也可能在精確的文件路徑匹配中失敗,Qodo實現了一種使用模糊匹配來提高工具成功率的後備機制。 殼工具:這使代理可以直接與系統外殼互動。它可以運行構建腳本,執行測試套件並實時驗證自己的假設,從而模仿開發人員的交互式工作流程。 ripgrep:,用於深入的代碼庫理解,該代理的本地設計用於優化RIPGREP遞歸搜索工具,從而使其可以快速在大型存儲庫中找到相關的代碼圖片。 順序思考:雖然默認情況下未啟用,但這種結構化的推理工具通過將復雜的任務分解為更易於管理,更可行的步驟,從而為基準結果做出了貢獻。

對於基準運行,Qodo指出其網絡搜索工具被禁用,以防止解決方案中的任何潛在數據洩漏,從而確保其分數的完整性。最後,該公司強調了與擬人化的牢固合作夥伴關係,確認它是a “由Claude”解決方案驅動。它指出,克勞德4(Claude 4)成為其令人印象深刻的SWE Bench結果的首選模型。

基準測試至高無上與現實世界中的遇到

該行業對基準標準的強烈關注的焦點與開放式公共登上了Openai openai openai openai openai op op Openai的Gpt-5。儘管首席執行官山姆·奧特曼(Sam Altman)的創紀錄得分和雄心勃勃的說法是“這是世界上最好的模型,這是世界上最好的模型,這是世界上寫作中最好的模型,世界上最好的模型,除此之外,還有一系列的事情。該模型以虛構的狀態製作了地圖,基本數學失敗並發明了美國總統,導致了廣泛的嘲笑並損害了公司的信譽。

強烈反對是如此嚴重,以至於8月8日,Altman發表了公共道歉。他承認,模型的內部模式之間的“有缺陷的“自動開關”使它比預期的更長的時間“看起來笨拙”,這使得該模型的能力遠不如預期的。在很大的逆轉中,Openai承諾將

這種基準波動為企業客戶帶來了挑戰性的環境。當宣稱的“最佳”模型可以在幾天內剝奪或在實踐中失敗時,選擇AI編碼合作夥伴就會成為一場賭博。它將焦點從純粹的性能指標轉移到可靠性,一致性和現實世界實用程序。

對於開發人員和依靠它們的企業,關鍵問題仍然存在:可以信任標準化測試以構建可靠,可靠,可靠和安全的軟件的模型嗎?最近的動盪表明答案遠非簡單。 )