AIスタートアップQodoは、優位性をコーディングするために激しい「ベンチマーク戦争」に参加しました。 8月11日、同社は新しいエージェントであるQodo Commandを発表し、SWEベンチ検証テストで印象的な71.2%を獲得しました。この結果は、Qodoが人類やOpenaiのような巨人が支配する競争の激しいアリーナに直接突き刺さっています。 QodoコマンドはLanggraph上に構築されており、タスクをコーディングするためにOpenai、人類などのモデルを使用できます。
この発表は、1回の態度のめまいがする週に続きます。人類とOpenaiは最近、トップの座を互いに飛び越え、それぞれ74.5%と74.9%のスコアを主張しました。ベンチマークの支配のための容赦ないレースは急速にエスカレートしています。
このハイステークス競争は、現実世界のつまずきの背景に対して展開されます。 Openaiの新しいGPT-5などの高得点モデルは、問題のある公開発売に直面しており、ベンチマークの成功が信頼できる生産対応のパフォーマンスに真に変換されるかどうかについて重要な疑問を提起しています。 Swe-bench gauntlet:隔週で新しいコーディングワールドチャンピオン
業界のトップラボからのこのラピッドファイアシリーズのアナウンスは、a 目標。
強い焦点は、理由のためにSWEベンチにあります。合成テストとは異なり、現実世界のソフトウェアエンジニアリングを反映する厳しい評価です。各タスクは、広く使用されている12のオープンソースPythonリポジトリのいずれかに見られる実際のGitHub問題から派生しています。成功するために、AIエージェントは、多くの場合、複数のファイルでコードを推論、計画、および正しく編集する必要があります。これは、人間の開発者がショートカットなしで繰り返します。このスコアは、前任者であるClaude 4 Opusが5月に数ヶ月前に投稿した72.5%の大幅な飛躍を表しており、驚くべき進歩を示しています。ちょうど数日後の8月7日、Openaiは、非常に期待されているGPT-5モデルシリーズの発売に反論しました。同社は、新しいフラッグシップが74.9%の成功率でライバルをわずかに上回り、すぐにクロード4.1を退位させ、それ自体のトップスポットをつかみました。最高のスコアではありませんが、それは小規模なスタートアップにとって手ごわい成果であり、Qodoコマンドエージェントを業界のタイタンと同じリーグにしっかりと配置しています。その結果、革新的な建築的アプローチが大規模なラボの膨大な規模と競合できることが証明されています。公式のSWEベンチのWebサイトは遅れをとった指標になり、会社のプレスリリースに対応することができません。リーダーボードは、まだ古くて置き換えられたスコアを公開していることを示しており、現在の最先端の信頼性の低いソースとなっています。たとえば、多くの専門家は、異なるモデルであるAnthropicのあまり強力ではないClaude Sonnet 4が、特定の条件下で評価されたときに実際にパックをリードすることを示唆しています。この矛盾は、テスト方法と、リーダーボードのトップが発表が示唆するほどクリアカットされているかどうかについての重要な疑問を提起します。 href=”https:>現実世界のソフトウェアエンジニアリングのためにゼロから設計されています。 Qodoコマンドエージェントは、単一のモノリシックモデルに依存する代わりに、モジュール式、ステートフル、および周期的なワークフローの作成を可能にする強力なフレームワークであるLanggraphに基づいています。この基盤は、複雑なマルチステップの問題に取り組むために必要な速度と柔軟性の両方を提供します。
Langgraphの使用は重要な差別化要因です。これにより、Qodoは複雑な操作をグラフとして調整できます。各ステップは構成可能なノードです。このモジュール性は、単なる理論的利点ではありません。チームは、既存のIDE拡張機能であるQodo Genから実績のあるコンポーネントを再利用および拡張することができました。これには、コード分析、要約、セキュリティスキャンのためのバトルテストモジュールが含まれます。これは、新しいエージェント内で簡単に再利用できます。 Qodoのシステムは、複雑でマルチファイルのコードベースに成功するには、Rawファイルを言語モデルにフィードするだけではないことを認識しています。これは、最初に層状コードを正確で高信号の要約に蒸留することで解決し、LLMが推論プロセスのすべてのステップで最も関連性の高い構造化されたコンテキストのみを受信することを保証します。コードを作成する前に、エージェントはユーザーの目標を深く分析し、それを明確で実用的な一連のサブタスクに分解します。これにより、LLMが従うための信頼できるロードマップが作成されます。重要なことに、タスクの完了は、最終出力だけでなく、この元の計画への厳密な順守によって判断されます。検出されたギャップは、完全なアラインメントが達成されるまでフィードバックをトリガーし、ループを再試行します。
堅牢性を確保するために、Qodoコマンドはインテリジェントな再試行および転倒メカニズムを備えています。ツールコールが失敗した場合、エージェントは単に停止しません。適応します。システムは、エラーフィードバックを自動的に抽出し、LLMを呼び出して障害を診断し、ツールのパラメーターまたは構造をインテリジェントに調整します。エージェントは、最大3回のコールを再試行する権限を与えられており、解決がまだ不可能な場合、進捗状況が継続するための代替戦略にピボットできます。そのツールセットには、次のものが含まれます:
ファイルシステム:ファイルを読み取り、書き込み、編集するための標準ツール。最先端のモデルでさえ正確なファイルパスマッチで失敗する可能性があることを認識して、Qodoはファジーマッチングを使用してツールの成功率を改善するフォールバックメカニズムを実装しました。 シェルツール:これにより、エージェントはシステムシェルと直接対話する機能が得られます。ビルドスクリプトを実行し、テストスイートを実行し、開発者のインタラクティブなワークフローを模倣して、独自の仮説をリアルタイムで検証できます。 Ripgrep:ディープコードベースの理解のために、エージェントはRipgrep Recursive Search Toolを最適化するためにネイティブに設計されており、関連するコードスニペットを大規模なリポジトリ全体にすばやく見つけることができます。 シーケンシャル思考:デフォルトでは有効になっていませんが、この構造化された推論ツールは、複雑なタスクをより管理しやすく実用的なステップに分割することにより、ベンチマークの結果に貢献するのに役立ちました。
ベンチマークの実行では、Qodoは、ソリューションの潜在的なデータ漏れを防ぎ、スコアの整合性を確保するためにWeb検索ツールが無効になっていると指摘しています。最後に、同社は人類との強力なパートナーシップを強調しており、それが“fowed by claude”solution であることを確認しています。クロード4は、印象的なSWEベンチの結果を達成するための選択のモデルとして浮上したことを指定しています。記録的なスコアとCEOのサム・アルトマンからの野心的な主張にもかかわらず、「これはコーディングで世界で最高のモデルである…執筆の世界で最高のモデル、ヘルスケアで世界で最高のモデルであり、それを超えたものの長いリストは、モデルの発売は傍観者でした。このモデルは、架空の州で地図を作成し、基本的な数学に失敗し、米国の大統領を発明し、広範囲にわたるrid笑と会社の信頼性に損害を与えることにつながりました。彼は、「モデルの内部モード間の「オートスイッチャー」が、意図したものよりも長い時間「馬鹿げている」ようになったことを認めました。大幅な逆転で、Openaiは