Qodo命令以71.2％SWE-Bench得分進入AI編碼代理戰爭

AI初創公司Qodo進入了猛烈的“基準戰爭”，以編碼至高無上。 8月11日，該公司宣布其新代理Qodo Command在SWE-Bench驗證的測試中得分令人印象深刻71.2％。該結果將Qodo直接推向了一個由人類和Openai等巨人主導的競爭領域。 Qodo命令建立在Langgraph上，並允許使用OpenAI，Anthropic和其他編碼任務的型號進行編碼。

公告是一周令人眼花and亂的一周。 Anthropic和Openai最近互相跨越最高點，分別佔74.5％和74.9％。基準優勢的無情競賽正在迅速上升。

這場高風險的競爭是在現實世界中的絆腳石的背景下展開的。諸如OpenAI的新GPT-5之類的高分模型面臨著困難的公開發射，引發了有關基準成功是否真正轉化為可靠的，可提供生產的性能的關鍵問題。

Swe-Bench Gauntlet:每隔一周一次新的編碼世界冠軍

與在swe-bench排行榜上升級為“高級競爭”的次數升級為“最佳編碼”，這是一位最佳的編輯，這是一位最佳的編輯，這是一位最佳的編輯。該行業頂級實驗室的一系列快速通知突出顯示了A

強烈的重點是出於某種原因。與合成測試不同，這是一項苛刻的評估，反映了現實世界軟件工程。每個任務均來自12個廣泛使用的開源Python存儲庫之一中發現的實際GITHUB問題。為了取得成功，AI代理必須推理，計劃和正確編輯代碼，通常會跨多個文件，就像人類開發人員無需任何快捷方式一樣。

這場基準戰爭的最新一輪戰爭始於8月5日，當時Anthropic宣布了其新的Claude Opus 4.1的新成績為74.5％。該分數代表了其前任克勞德4 Opus在幾個月前發布的72.5％的巨大飛躍，這表明進展了顯著。就在幾天后，即8月7日，Openai反駁了其備受期待的GPT-5型號系列。該公司聲稱，其新旗艦店以74.9％的成功率險些超過了競爭對手，立即將克勞德4.1奪走了，並佔領了自身的首位。

現在，Qodo的71.2％得分進入了這個動蕩的領域。雖然不是最高的分數，但對於一個較小的創業公司來說，這是一項艱鉅的成就，將其Qodo指揮代理人牢牢地置於與行業的泰坦隊同一聯盟中。結果證明，創新的建築方法可以與較大的實驗室的純粹規模競爭。

這種令人眼花spection亂的索賠繼承在開發人員社區中引起了極大的混亂。 SWE Bench官方網站已成為一個滯後指標，無法與公司新聞稿保持同步。公開顯示的排行榜仍顯示出較舊的，取代的分數，這使其成為當前最新的最新來源。

進一步複雜化問題，整個層次結構都受到獨立分析的質疑。例如，許多專家表明，在某些條件下對Anthropic不太強大的Claude Sonnet 4強大的Claude Sonnet 4提出了不同。這種差異提出了有關測試方法的關鍵問題，以及排行榜的頂部是否像公告所建議的那樣清晰。 href=“ https://www.qodo.ai/blog/qodo-command-swe-bench-verified/” target=“ _ black”>從地面上進行工程進行現實世界軟件工程。 Qodo命令代理不是依靠單個單片模型，而是建立在Langgraph上，Langgraph是一個強大的框架，可以創建模塊化，狀態和周期性工作流程。該基礎提供了解決複雜的多步驟問題所需的速度和靈活性。

使用langgraph是關鍵區別。它允許Qodo作為圖形將復雜操作編排，其中每個步驟都是可配置的節點。這種模塊性不僅是理論上的優勢。它允許團隊從其現有的IDE擴展名（Qodo Gen）中重用並擴展了驗證的組件。這包括經過戰鬥測試的模塊，用於代碼分析，摘要和安全掃描，可以在新代理中毫不費力地重新使用。

代理商的核心強度之一是其高級上下文摘要。 Qodo的系統認識到，在復雜的多文件代碼庫中取得成功不僅需要將RAW文件饋送到語言模型。它通過首先將分層代碼提煉成精確的高信號摘要來解決此問題，從而確保LLM在其推理過程的每個步驟中僅接收最相關和結構化的上下文。

這是與紀律處分的“計劃-限制”的執行方式。在編寫任何代碼之前，代理商會深入分析用戶的目標，並將其分解為一系列可行的子任務系列。這為LLM創建了可靠的路線圖。至關重要的是，任務完成不僅是根據最終輸出來判斷的，而且嚴格遵守該原始計劃。任何檢測到的縫隙觸發反饋和重試循環，直到達到完全對齊為止。

為了確保穩健性，Qodo命令具有智能重試和後背機制。當工具調用失敗時，代理不會簡單地停止；它適應。系統會自動提取錯誤反饋，調用LLM來診斷故障，然後智能調整工具的參數或結構。該代理商有權將通話重試三次，如果仍然不可能做出決議，它可以轉向替代策略以確保進步的持續。

這種代理推理將由強大的開發人員級工具提供支持，使其能夠像專家人類開發人員一樣運行。其工具集包括:

文件系統:用於閱讀，寫作和編輯文件的標準工具。認識到即使是最新的模型也可能在精確的文件路徑匹配中失敗，Qodo實現了一種使用模糊匹配來提高工具成功率的後備機制。 殼工具:這使代理可以直接與系統外殼互動。它可以運行構建腳本，執行測試套件並實時驗證自己的假設，從而模仿開發人員的交互式工作流程。 ripgrep:，用於深入的代碼庫理解，該代理的本地設計用於優化RIPGREP遞歸搜索工具，從而使其可以快速在大型存儲庫中找到相關的代碼圖片。 順序思考:雖然默認情況下未啟用，但這種結構化的推理工具通過將復雜的任務分解為更易於管理，更可行的步驟，從而為基準結果做出了貢獻。

對於基準運行，Qodo指出其網絡搜索工具被禁用，以防止解決方案中的任何潛在數據洩漏，從而確保其分數的完整性。最後，該公司強調了與擬人化的牢固合作夥伴關係，確認它是a “由Claude”解決方案驅動。它指出，克勞德4（Claude 4）成為其令人印象深刻的SWE Bench結果的首選模型。

基準測試至高無上與現實世界中的遇到

該行業對基準標準的強烈關注的焦點與開放式公共登上了Openai openai openai openai openai op op Openai的Gpt-5。儘管首席執行官山姆·奧特曼（Sam Altman）的創紀錄得分和雄心勃勃的說法是“這是世界上最好的模型，這是世界上最好的模型，這是世界上寫作中最好的模型，世界上最好的模型，除此之外，還有一系列的事情。該模型以虛構的狀態製作了地圖，基本數學失敗並發明了美國總統，導致了廣泛的嘲笑並損害了公司的信譽。

強烈反對是如此嚴重，以至於8月8日，Altman發表了公共道歉。他承認，模型的內部模式之間的“有缺陷的“自動開關”使它比預期的更長的時間“看起來笨拙”，這使得該模型的能力遠不如預期的。在很大的逆轉中，Openai承諾將

這種基準波動為企業客戶帶來了挑戰性的環境。當宣稱的“最佳”模型可以在幾天內剝奪或在實踐中失敗時，選擇AI編碼合作夥伴就會成為一場賭博。它將焦點從純粹的性能指標轉移到可靠性，一致性和現實世界實用程序。

對於開發人員和依靠它們的企業，關鍵問題仍然存在:可以信任標準化測試以構建可靠，可靠，可靠和安全的軟件的模型嗎?最近的動盪表明答案遠非簡單。）

Qodo命令以71.2％SWE-Bench得分進入AI編碼代理戰爭

Published by All Things Windows on August 12, 2025

基準測試至高無上與現實世界中的遇到

IT Info

Windows 11 24H2 8月更新KB5063878帶來新的快照，開始菜單，搜索和許多其他功能。下載鏈接。

IT Info

Google啟動“首選來源”，以使用戶優先級新聞媒體

IT Info

使用此命令在Windows 11和10中鎖定屏幕

Qodo命令以71.2％SWE-Bench得分進入AI編碼代理戰爭

Published by All Things Windows on August 12, 2025

基準測試至高無上與現實世界中的遇到

Related Posts

IT Info

Windows 11 24H2 8月更新KB5063878帶來新的快照，開始菜單，搜索和許多其他功能。下載鏈接。

IT Info

Google啟動“首選來源”，以使用戶優先級新聞媒體

IT Info

使用此命令在Windows 11和10中鎖定屏幕