La startup AI Qodo est entrée dans la «guerre de référence» féroce pour coder la suprématie. Le 11 août, la société a annoncé que son nouvel agent, Qodo Command, a marqué un impressionnant 71,2% sur le test vérifié SWE-Bench. Ce résultat pousse Qodo directement dans une arène compétitive dominée par des géants comme Anthropic et Openai. La commande Qodo est construite sur Langgraph et permet d’utiliser des modèles à partir d’Openai, Anthropic et autres pour le codage des tâches.

L’annonce suit une semaine vertigineuse d’une hausse. Anthropic et Openai se sont récemment sautaient pour la première place, affirmant respectivement des scores de 74,5% et 74,9%. La course implacable pour la domination de référence s’accrétise rapidement.

Cette compétition à enjeux élevés se déroule cependant sur fond de trébuche du monde réel. Des modèles à haut score comme le nouveau GPT-5 d’OpenAI ont été confrontés à des lancements publics en difficulté, ce qui soulève des questions critiques sur la question de savoir si le succès de référence se traduit vraiment par des performances fiables et prêtes à la production.

Gauntlet: un nouveau champion du monde de codage toutes les deux semaines

la bataille pour le Top Spot sur le classement Swe-Bench a dépensé des moments frénétiques et élevés. Cette série d’annonces rapides des meilleurs laboratoires de l’industrie met en évidence un Une étude clés et artifiée de développement objectif.

L’accent intense est sur Swe-Bench pour une raison. Contrairement aux tests synthétiques, c’est une évaluation exigeante qui reflète l’ingénierie logicielle du monde réel. Chaque tâche est dérivée d’un problème de github réel trouvé dans l’un des 12 référentiels Python open source largement utilisés. Pour réussir, les agents de l’IA doivent raisonner, planifier et modifier correctement le code, souvent sur plusieurs fichiers, en itérant tout comme un développeur humain sans aucun raccourci.

Le dernier cycle de cette guerre de référence a commencé le 5 août, lorsque Anthropic a annoncé son nouveau Claude Opus 4.1 a obtenu un score Anthropic de 74,5%. Ce score représentait un saut significatif sur les 72,5% de son prédécesseur, Claude 4 Opus, avait affiché quelques mois plus tôt en mai, démontrant des progrès remarquables.

Cependant, le règne d’Anthropic a été de courte durée. Quelques jours plus tard, le 7 août, Openai a contré avec le lancement de sa série de modèles GPT-5 très attendue. La société a affirmé que son nouveau navire amiral avait dépassé de justesse son rival avec un taux de réussite de 74,9%, détrônant immédiatement Claude 4.1 et saisissant la première place pour elle-même.

C’est dans ce champ turbulent que le score de 71,2% de Qodo entre maintenant. Bien qu’il ne s’agisse pas du score le plus élevé, c’est une réalisation formidable pour une startup plus petite, plaçant fermement son agent de commandement Qodo dans la même ligue que les Titans de l’industrie. Le résultat prouve que des approches architecturales innovantes peuvent rivaliser avec l’ampleur des grands laboratoires.

Cette succession vertigineuse de réclamations a créé une confusion importante dans la communauté des développeurs. Le site officiel de SWE-Bench est devenu un indicateur à la traîne, incapable de suivre le rythme des communiqués de presse de l’entreprise. Le classement affiché publiquement affiche toujours des scores plus anciens et remplacés, ce qui en fait une source peu fiable pour la pointe actuelle.

Pour compliquer davantage les choses, toute la hiérarchie est remise en question par des analyses indépendantes. De nombreux experts, par exemple, suggèrent qu’un modèle différent, Claude Sonnet 4 moins puissant d’Anthropic, mène en fait le pack lorsqu’il est évalué dans certaines conditions. Cet écart soulève des questions critiques sur les méthodologies de test et si le haut du classement est aussi clair que les annonces le suggèrent.

Sous le capot: comment Qodo Command a obtenu son score

Qodo attribue sa forte démonstration pour ne pas être optimisée, mais à un architecture agentique sophistiqué conçu à partir de zéro pour le génie logiciel réel . Au lieu de s’appuyer sur un seul modèle monolithique, l’agent de commande Qodo est construit sur Langgraph, un cadre puissant qui permet la création de flux de travail modulaires, states et cycliques. Cette fondation offre à la fois la vitesse et la flexibilité nécessaires pour résoudre les problèmes complexes et multi-étapes.

L’utilisation de Langgraph est un différenciateur clé. Il permet à Qodo d’orchestrer les opérations complexes en tant que graphique, où chaque étape est un nœud configurable. Cette modularité n’est pas seulement un avantage théorique; Il a permis à l’équipe de réutiliser et d’étendre les composants éprouvés à partir de son extension IDE existante, Qodo Gen. Cela comprend des modules testés contre la bataille pour l’analyse du code, le résumé et la numérisation de sécurité, qui pourrait être réutilisé sans effort au sein du nouvel agent.

L’une des principales forces de l’agent est sa résumé de contexte avancé. Le système de Qodo reconnaît que réussir dans des bases de code complexes et multi-fichiers nécessite plus que de simplement alimenter les fichiers bruts à un modèle de langue. Il résout cela par le premier code en couches distillant en résumés précis et de signal élevé, garantissant que le LLM ne reçoit que le contexte le plus pertinent et le plus structuré à chaque étape de son processus de raisonnement.

Ceci est associé à une approche «prévue avant» disciplinée de l’exécution. Avant d’écrire un code, l’agent analyse profondément l’objectif de l’utilisateur et le décompose en une série de sous-tâches claires et exploitables. Cela crée une feuille de route fiable à suivre le LLM. Surtout, l’achèvement des tâches est jugé non seulement par la sortie finale mais par une stricte adhésion à ce plan d’origine. Toutes les lacunes détectées déclenchent une boucle de rétroaction et de réessayer jusqu’à ce que l’alignement complet soit atteint.

Pour garantir la robustesse, la commande Qodo dispose de mécanismes de réchauffement intelligent et de retour. Lorsqu’un appel d’outil échoue, l’agent ne s’arrête pas simplement; il s’adapte. Le système extrait automatiquement la rétroaction des erreurs, invoque le LLM pour diagnostiquer la défaillance, puis ajuste intelligemment les paramètres ou la structure de l’outil. L’agent est habilité à réessayer un appel jusqu’à trois fois, et si une résolution n’est toujours pas possible, elle peut pivoter des stratégies alternatives pour s’assurer que les progrès se poursuivent.

Ce raisonnement agentique est soutenu par une puissante suite d’outils de niveau de développeur qui lui permettent de fonctionner comme un développeur humain expert. Son ensemble d’outils comprend:

Système de fichiers: outils standard pour la lecture, l’écriture et l’édition de fichiers. Reconnaissant que même les modèles de pointe peuvent échouer sur les correspondances exactes du chemin de fichier, Qodo a implémenté un mécanisme de secours qui utilise la correspondance floue pour améliorer le taux de réussite de l’outil. outil de shell: Cela donne à l’agent la possibilité d’interagir directement avec le shell système. Il peut exécuter des scripts de construction, exécuter des suites de test et valider ses propres hypothèses en temps réel, imitant le flux de travail interactif d’un développeur. ripgrep: Pour une compréhension profonde de la base de code, l’agent est conçu nativement pour une utilisation optimisée de l’outil de recherche récursif RipGrep, lui permettant de localiser rapidement des extraits de code pertinents sur de grands référentiels. Pensée séquentielle: Bien que non activée par défaut, cet outil de raisonnement structuré a contribué aux résultats de référence en décomposant les tâches complexes en étapes plus gérables et exploitables.

Pour l’exécution de référence, Qodo note que son outil de recherche Web a été désactivé pour empêcher toute fuite de données potentielle dans les solutions, assurant l’intégrité de son score. Enfin, la société met en évidence son solide partenariat avec Anthropic, confirmant qu’il s’agit d’un “Powered by Claude”Solution . Il précise que Claude 4 est devenu son modèle de choix pour obtenir ses impressionnants résultats SWE-Bench.

La suprématie de référence vs trébuche dans le monde réel

L’intension de l’industrie sur la dominance de benchmark contraste fortement avec le débu public chaotique du GPT-5 d’Openai. Malgré son score record et ses affirmations ambitieuses du PDG Sam Altman que «c’est le meilleur modèle au monde en codage… le meilleur modèle au monde à l’écriture, le meilleur modèle du monde en soins de santé, et une longue liste de choses au-delà de cela,« le lancement du modèle a été un quasi-disâle. Le modèle a produit des cartes avec des états fictifs, a échoué les mathématiques de base et a inventé les présidents américains, conduisant à un ridicule généralisé et endommageant la crédibilité de l’entreprise.

Le contrecoup était si grave que le 8 août, Altman a présenté des excuses publiques. Il a admis qu’«un« Autoswitcher »défectueux entre les modes internes du modèle avait fait plus longtemps que« bien plus abaissé que prévu », un défaut technique qui a rendu le modèle beaucoup moins capable que prévu. Dans un renversement significatif, Openai a promis à Restore accès à son prédécesseur populaire, gpt-4o . Le scepticisme quant à la valeur ultime des repères, à mesure que les enjeux des guerres de codage AI augmentent. Les concurrents sont rapides à capitaliser sur tout faux pas. Dans une réponse claire au trébuchement d’Openai, le XAI d’Elon Musk a rendu son modèle Grok 4 gratuitement pour une durée limitée. Pourtant, Grok lui-même a été confronté à la critique pour avoir été dépassé aux références.

Cette volatilité de référence crée un environnement difficile pour les clients d’entreprise. Le choix d’un partenaire de codage AI devient un pari lorsque le «meilleur» modèle proclamé peut être détrôné en jours ou échouer dans la pratique. Cela passe l’attention des mesures de performances pures à la fiabilité, à la cohérence et à l’utilité du monde réel.

Pour les développeurs et les entreprises qui s’appuient sur eux, la question clé demeure: un modèle qui a connu un test standardisé peut-il faire confiance pour créer des logiciels robustes, fiables et sécurisés? La tourmente récente suggère que la réponse est loin d’être simple.)

Categories: IT Info