AI Startup Qodo telah memasuki”Perang Benchmark”yang sengit untuk pengekodan supremasi. Pada 11 Ogos, syarikat itu mengumumkan ejen barunya, Qodo Command, menjaringkan 71.2% yang mengagumkan pada ujian yang disahkan SWE-Bench. Hasil ini mendorong Qodo terus ke arena kompetitif yang dikuasai oleh gergasi seperti antropik dan terbuka. Perintah QODO dibina di Langgraph dan membolehkan menggunakan model dari OpenAI, Anthropic dan lain-lain untuk tugas pengekodan.
Pengumuman ini mengikuti satu minggu yang mengasyikkan satu-upmanship. Anthropic dan OpenAI baru-baru ini melompat satu sama lain untuk tempat teratas, menuntut skor 74.5% dan 74.9%, masing-masing. Perlumbaan yang tidak henti-henti untuk dominasi penanda aras semakin meningkat dengan pesat. Model-model pencapaian tinggi seperti GPT-5 baru OpenAI telah menghadapi pelancaran awam yang bermasalah, menimbulkan persoalan kritikal mengenai sama ada kejayaan penanda aras benar-benar diterjemahkan kepada prestasi yang boleh dipercayai, siap sedia. Gauntlet Swe-Bench: Juara Dunia Pengekodan Baru Setiap Minggu Lain hari. Siri pengumuman yang cepat ini dari makmal teratas industri ini menyoroti
Ini ditambah dengan pendekatan”pelan pertama”yang disiplin. Sebelum menulis mana-mana kod, ejen itu sangat menganalisis matlamat pengguna dan menguraikannya ke dalam siri subtask yang jelas dan boleh diambil tindakan. Ini mewujudkan peta jalan yang boleh dipercayai untuk LLM untuk diikuti. Secara kritis, penyelesaian tugas dinilai bukan hanya dengan output akhir tetapi dengan kepatuhan yang ketat terhadap pelan asal ini. Mana-mana jurang yang dikesan mencetuskan maklum balas dan gelung semula sehingga penjajaran penuh dicapai.
Untuk memastikan keteguhan, perintah QODO mempunyai mekanisme pintar dan jatuh balik. Apabila panggilan alat gagal, ejen tidak hanya berhenti; Ia menyesuaikan diri. Sistem ini secara automatik mengekstrak maklum balas ralat, menyerahkan LLM untuk mendiagnosis kegagalan, dan kemudian dengan bijak menyesuaikan parameter atau struktur alat. Ejen itu diberi kuasa untuk mencuba semula panggilan sehingga tiga kali, dan jika resolusi masih tidak mungkin, ia boleh berputar ke strategi alternatif untuk memastikan kemajuan berterusan.
Toolsetnya termasuk:
Filesystem: Alat standard untuk membaca, menulis, dan mengedit fail. Menyedari bahawa walaupun model canggih boleh gagal pada perlawanan laluan fail yang tepat, Qodo melaksanakan mekanisme sandaran yang menggunakan padanan kabur untuk meningkatkan kadar kejayaan alat. Alat shell: Ini memberikan ejen keupayaan untuk berinteraksi secara langsung dengan shell sistem. Ia boleh menjalankan skrip membina, melaksanakan suite ujian, dan mengesahkan hipotesisnya sendiri dalam masa nyata, meniru aliran kerja interaktif pemaju. Ripgrep: Untuk pemahaman asas yang mendalam, ejen itu direka secara asli untuk menggunakan alat carian rekursif Ripgrep, yang membolehkannya dengan cepat mencari coretan kod yang relevan di seluruh repositori besar. Pemikiran berurutan: Walaupun tidak diaktifkan secara lalai, alat penalaran berstruktur ini membantu menyumbang kepada hasil penanda aras dengan memecahkan tugas-tugas yang kompleks ke dalam langkah-langkah yang lebih mudah diurus dan boleh dilakukan.
Untuk penanda aras yang dijalankan, Qodo mencatatkan bahawa alat carian webnya dilumpuhkan untuk mengelakkan sebarang kebocoran data yang berpotensi dalam penyelesaian, memastikan integriti skornya. Akhirnya, syarikat itu menyoroti perkongsiannya yang kuat dengan Anthropic, mengesahkan ia adalah penyelesaian”dikuasakan oleh Claude”. Ia menyatakan bahawa Claude 4 muncul sebagai model pilihannya untuk mencapai hasil SWE-Bench yang mengagumkan. Walaupun skor penetapan rekodnya dan tuntutan bercita-cita tinggi dari Ketua Pegawai Eksekutif Sam Altman bahawa”ini adalah model terbaik di dunia di pengekodan… model terbaik di dunia pada penulisan, model terbaik di dunia di penjagaan kesihatan, dan senarai panjang perkara yang melampaui itu,”pelancaran model itu adalah pengguna yang dekat. Model ini menghasilkan peta dengan keadaan fiksyen, gagal matematik asas, dan mencipta presiden AS, yang membawa kepada penolakan yang meluas dan merosakkan kredibiliti syarikat.
Dia mengakui bahawa”Autoswitcher’yang rosak di antara mod dalaman model telah menjadikannya lebih lama’kelihatan seperti dumber’daripada yang dimaksudkan,”kecacatan teknikal yang membuat model kelihatan jauh lebih berkemampuan daripada yang dimaksudkan. Dalam pembalikan yang signifikan, Openai berjanji untuk