AI Startup Qodo è entrato nella feroce”guerra di riferimento”per la codifica della supremazia. L’11 agosto, la società ha annunciato il suo nuovo agente, Qodo Command, ha ottenuto un impressionante 71,2% sul test verificato da Bench SWE. Questo risultato spinge Qodo direttamente in un’arena competitiva dominata da giganti come antropici e aperte. Il comando Qodo è costruito su Langgraph e consente di utilizzare i modelli di Openai, Antropic e altri per le attività di codifica.
L’annuncio segue una settimana vertiginosa di un up-manship. Antropico e Openai si sono recentemente saltati a vicenda per il primo posto, rivendicando decine del 74,5% e del 74,9%, rispettivamente. La corsa incessante per il dominio del benchmark sta aumentando rapidamente.
Questa competizione ad alto contenuto di poste, tuttavia, si svolge su uno sfondo di inciampi nel mondo reale. High-scoring models like OpenAI’s new GPT-5 have faced troubled public launches, raising critical questions about whether benchmark success truly translates to reliable, production-ready performance.
The SWE-Bench Gauntlet: un nuovo campione del mondo di codifica ogni due settimane
La battaglia per Il primo posto nella classifica di Swetto si è scalato in una frenetica affari di palco, con il titolo di migliore modella”che cambia le mani in materia di giorni. Questa serie di annunci a fuoco rapido dei migliori laboratori del settore mette in evidenza un frenetico e armato di esperti di sviluppo
Il focus intenso è su SWE-Bench per un motivo. A differenza dei test sintetici, è una valutazione impegnativa che rispecchia l’ingegneria del software del mondo reale. Ogni attività deriva da una vera questione di GitHub trovata in uno dei 12 repository di Python ampiamente utilizzati. Per avere successo, gli agenti di intelligenza artificiale devono ragionare, pianificare e modificare correttamente il codice, spesso su più file, iterando proprio come farebbe uno sviluppatore umano senza scorciatoie.
L’ultimo round di questa guerra di riferimento è iniziato sul serio il 5 agosto, quando Antropico ha annunciato il suo nuovo Claude Opus 4.1 aveva raggiunto una nuova partitura dello stato del 74,5%. Questo punteggio rappresentava un salto significativo sul 72,5% che il suo predecessore, Claude 4 Opus, aveva pubblicato pochi mesi prima a maggio, dimostrando progressi notevoli.
Tuttavia, il regno di Antropico era di breve durata. Pochi giorni dopo, il 7 agosto, Openai ha contrastato con il lancio della sua tanto attesa serie di modelli GPT-5. La società ha affermato che la sua nuova ammiraglia ha superato per poco il suo rivale con un tasso di successo del 74,9%, detronendo immediatamente Claude 4.1 e sequestrando il primo posto per se stesso.
È in questo campo turbolento in cui il punteggio del 71,2% di Qodo ora entra. Sebbene non sia il punteggio più alto, è un risultato formidabile per una startup più piccola, posizionando saldamente il suo agente di comando Qodo nella stessa lega dei Titani del settore. Il risultato dimostra che gli approcci architettonici innovativi possono competere con la portata di laboratori più grandi.
Questa vertiginosa successione di affermazioni ha creato una confusione significativa nella comunità degli sviluppatori. Il sito Web ufficiale SWE-Bench è diventato un indicatore in ritardo, incapace di tenere il passo con i comunicati stampa dell’azienda. La classifica mostrata pubblicamente mostra ancora punteggi più vecchi e sostituiti, rendendola una fonte inaffidabile per l’attuale stato dell’arte.
Per complicare ulteriormente le questioni, l’intera gerarchia viene messa in discussione da analisi indipendenti. Molti esperti, ad esempio, suggeriscono che un modello diverso, il sonetto Claude 4 meno potente di Antropico, conduce effettivamente il pacchetto se valutato in determinate condizioni. Questa discrepanza solleva domande critiche sulle metodologie di test e se la parte superiore della classifica è chiara come suggeriscono gli annunci.
sotto il cofano: come il comando Qodo ha raggiunto il suo punteggio
Qodo attribuisce il suo forte che mostra non per il benchmark l’ottimizzazione, ma a un’architettura agente sofisticata ingegnerizzato da zero per l’ingegneria del software reale . Invece di fare affidamento su un singolo modello monolitico, l’agente di comando Qodo è costruito su Langgraph, un potente framework che consente la creazione di flussi di lavoro modulari, statali e ciclici. Questa fondazione fornisce sia la velocità che la flessibilità necessarie per affrontare problemi complessi e multi-passo.
L’uso di Langgraph è un differenziatore chiave. Consente a Qodo di orchestrare operazioni complesse come grafico, in cui ogni passaggio è un nodo configurabile. Questa modularità non è solo un vantaggio teorico; Ha permesso al team di riutilizzare ed estendere componenti comprovati dalla sua estensione IDE esistente, Qodo Gen. Ciò include moduli testati in battaglia per l’analisi del codice, il riepilogo e la scansione della sicurezza, che potrebbero essere riproposti senza sforzo all’interno del nuovo agente.
Uno dei punti di forza del contesto dell’agente è il suo riepilogo del contesto avanzato. Il sistema di Qodo riconosce che il successo in banali di codice multi-file complessi richiede molto più che alimentare i file RAW a un modello di lingua. Risolve questo problema distillando il codice a strati in riassunti precisi e di alto livello, garantendo che l’LLM riceva solo il contesto più rilevante e strutturato in ogni fase del suo processo di ragionamento.
Questo è accoppiato con un approccio disciplinato”piano-prima”all’esecuzione. Prima di scrivere qualsiasi codice, l’agente analizza profondamente l’obiettivo dell’utente e lo decompone in una serie chiara e attuabile di sottovalutazioni. Questo crea una tabella di marcia affidabile da seguire per la LLM. Fondamentalmente, il completamento delle attività è giudicato non solo dalla produzione finale ma dalla rigorosa aderenza a questo piano originale. Eventuali spazi vuoti rilevati innescano un feedback e si riproducono fino a quando non viene raggiunto il pieno allineamento.
Per garantire la robustezza, il comando Qodo presenta meccanismi di ritratta e fallback intelligenti. Quando una chiamata dello strumento non riesce, l’agente non si ferma semplicemente; Adatta. Il sistema estrae automaticamente il feedback degli errori, invoca l’LLM per diagnosticare il fallimento, quindi regola in modo intelligente i parametri o la struttura dello strumento. L’agente ha il potere di riprovare una chiamata fino a tre volte e se una risoluzione non è ancora possibile, può ruotare su strategie alternative per garantire che continui i progressi.
Questo ragionamento agente è supportato da una potente suite di strumenti di livello sviluppatore che gli consentono di funzionare come un esperto sviluppatore umano. Il suo set di strumenti include:
filesystem: strumenti standard per i file di lettura, scrittura e modifica. Riconoscendo che anche i modelli all’avanguardia possono fallire con le corrispondenze esatte del percorso dei file, Qodo ha implementato un meccanismo di fallback che utilizza la corrispondenza fuzzy per migliorare il tasso di successo dello strumento. strumento shell: Questo dà all’agente la capacità di interagire direttamente con la shell del sistema. Può eseguire script build, eseguire suite di test e convalidare le proprie ipotesi in tempo reale, imitando il flusso di lavoro interattivo di uno sviluppatore. RIPGREP: Per una profonda comprensione della base di codice, l’agente è progettato in modo nativo per l’uso ottimizzato dello strumento di ricerca ricorsiva RIPGREP, consentendole di individuare rapidamente frammenti di codice pertinenti tra grandi repository. Pensiero sequenziale: sebbene non abilitato per impostazione predefinita, questo strumento di ragionamento strutturato ha contribuito a contribuire ai risultati di riferimento suddividendo le attività complesse in passaggi più gestibili e attuabili.
Per la corsa di riferimento, Qodo osserva che il suo strumento di ricerca web è stato disabilitato per impedire qualsiasi potenziale perdita di dati nelle soluzioni, garantendo l’integrità del suo punteggio. Infine, la società mette in evidenza la sua forte partnership con Antropic, confermando che è un “Powered by Claude”Soludo . Specifica che Claude 4 è emerso come il suo modello di scelta per il raggiungimento dei suoi impressionanti risultati di panca SWE.
supremazia di riferimento rispetto ai ostacoli del mondo reale
L’intenso focus dell’industria del dominio di riferimento contrasta con il debutto pubblico chaotico di OpenIai di Openiai. Nonostante il suo punteggio da record e le affermazioni ambiziose del CEO Sam Altman secondo cui”questo è il miglior modello al mondo nella codifica… il miglior modello del mondo a scrivere, il miglior modello al mondo di assistenza sanitaria e un lungo elenco di cose oltre a ciò”, il lancio del modello è stato quasi un disastro. Il modello ha prodotto mappe con stati immaginari, matematica di base fallita e ha inventato presidenti statunitensi, portando a un ridicolo diffuso e danneggiando la credibilità dell’azienda.
Il contraccolpo era così grave che entro l’8 agosto Altman emise scuse pubbliche. Ha ammesso che”un”autoswitcher”difettoso tra le modalità interne del modello lo aveva reso per un tempo più lungo”sembra più stupido”del previsto”, un difetto tecnico che ha fatto apparire il modello molto meno capace del previsto. In una revoca significativa, Openai ha promesso a
Questa volatilità di riferimento crea un ambiente stimolante per i clienti aziendali. La scelta di un partner di codifica AI diventa una scommessa quando il modello”migliore”proclamato può essere detronizzato in giorni o fallire nella pratica. Sposta l’attenzione dalle metriche delle prestazioni pure a affidabilità, coerenza e utilità del mondo reale. Per gli sviluppatori e le imprese che si basano su di esse, la domanda chiave rimane: un modello che assume un test standardizzato può essere affidabile per costruire software robusto, affidabile e sicuro? Il recente tumulto suggerisce che la risposta è tutt’altro che semplice.)