AIスタートアップQodoは、優位性をコーディングするために激しい「ベンチマーク戦争」に参加しました。 8月11日、同社は新しいエージェントであるQodo Commandを発表し、SWEベンチ検証テストで印象的な71.2%を獲得しました。この結果は、Qodoが人類やOpenaiのような巨人が支配する競争の激しいアリーナに直接突き刺さっています。 QodoコマンドはLanggraph上に構築されており、タスクをコーディングするためにOpenai、人類などのモデルを使用できます。

この発表は、1回の態度のめまいがする週に続きます。人類とOpenaiは最近、トップの座を互いに飛び越え、それぞれ74.5%と74.9%のスコアを主張しました。ベンチマークの支配のための容赦ないレースは急速にエスカレートしています。

このハイステークス競争は、現実世界のつまずきの背景に対して展開されます。 Openaiの新しいGPT-5などの高得点モデルは、問題のある公開発売に直面しており、ベンチマークの成功が信頼できる生産対応のパフォーマンスに真に変換されるかどうかについて重要な疑問を提起しています。 Swe-bench gauntlet:隔週で新しいコーディングワールドチャンピオン

業界のトップラボからのこのラピッドファイアシリーズのアナウンスは、a

堅牢性を確保するために、Qodoコマンドはインテリジェントな再試行および転倒メカニズムを備えています。ツールコールが失敗した場合、エージェントは単に停止しません。適応します。システムは、エラーフィードバックを自動的に抽出し、LLMを呼び出して障害を診断し、ツールのパラメーターまたは構造をインテリジェントに調整します。エージェントは、最大3回のコールを再試行する権限を与えられており、解決がまだ不可能な場合、進捗状況が継続するための代替戦略にピボットできます。そのツールセットには、次のものが含まれます:

ファイルシステム:ファイルを読み取り、書き込み、編集するための標準ツール。最先端のモデルでさえ正確なファイルパスマッチで失敗する可能性があることを認識して、Qodoはファジーマッチングを使用してツールの成功率を改善するフォールバックメカニズムを実装しました。 シェルツール:これにより、エージェントはシステムシェルと直接対話する機能が得られます。ビルドスクリプトを実行し、テストスイートを実行し、開発者のインタラクティブなワークフローを模倣して、独自の仮説をリアルタイムで検証できます。 Ripgrep:ディープコードベースの理解のために、エージェントはRipgrep Recursive Search Toolを最適化するためにネイティブに設計されており、関連するコードスニペットを大規模なリポジトリ全体にすばやく見つけることができます。 シーケンシャル思考:デフォルトでは有効になっていませんが、この構造化された推論ツールは、複雑なタスクをより管理しやすく実用的なステップに分割することにより、ベンチマークの結果に貢献するのに役立ちました。

ベンチマークの実行では、Qodoは、ソリューションの潜在的なデータ漏れを防ぎ、スコアの整合性を確保するためにWeb検索ツールが無効になっていると指摘しています。最後に、同社は人類との強力なパートナーシップを強調しており、それが“fowed by claude”solution であることを確認しています。クロード4は、印象的なSWEベンチの結果を達成するための選択のモデルとして浮上したことを指定しています。記録的なスコアとCEOのサム・アルトマンからの野心的な主張にもかかわらず、「これはコーディングで世界で最高のモデルである…執筆の世界で最高のモデル、ヘルスケアで世界で最高のモデルであり、それを超えたものの長いリストは、モデルの発売は傍観者でした。このモデルは、架空の州で地図を作成し、基本的な数学に失敗し、米国の大統領を発明し、広範囲にわたるrid笑と会社の信頼性に損害を与えることにつながりました。彼は、「モデルの内部モード間の「オートスイッチャー」が、意図したものよりも長い時間「馬鹿げている」ようになったことを認めました。大幅な逆転で、Openaiは