Symflower a introduit DevQualityEval, un nouveau benchmark et un nouveau framework créé pour évaluer la qualité du code produit par les grands modèles de langage (LLM). Cet outil est conçu pour aider les développeurs à améliorer les performances des LLM dans des environnements de développement logiciel réels, en fournissant un cadre standardisé pour mesurer et comparer l’efficacité des différents LLM dans la production de code de haute qualité.

DevQualityEval v0.4.0 a été testé, analysant 138 LLM différents pour la génération de code en Java et Go. Le processus d’évaluation impliquait de trier les modèles en fonction de leurs scores et de leurs coûts, de supprimer les modèles inférieurs au sein de la même famille de fournisseurs et de renommer les modèles restants pour plus de clarté. Les évaluations avec DevQualityEval ont montré que même si GPT-4 Turbo offre des capacités supérieures, le Llama-3 70B est nettement plus rentable, avec un score presque aussi élevé. Les modèles Claude 3 Sonnet et Haiku d’Anthropic, Mistral Medium et WizardLM-2 8x22B, le modèle Wizard le plus avancé de Microsoft AI, qui a été retiré en avril en raison de contrôles de toxicité manqués, ont également atteint une qualité de code comparable.

Le framework DevQualityEval propose des tâches qui simulent des scénarios de programmation réels, comme la création de tests unitaires pour divers langages de programmation. Il fournit des mesures telles que les taux de réussite de la compilation de code, les taux de couverture des tests et des évaluations qualitatives du style et de la précision du code. Cela permet aux développeurs d’évaluer les capacités et les limites des différents grands modèles linguistiques (LLM).

Informations comparatives et performances pratiques

DevQualityEval évalue les modèles en fonction de leur capacité à résoudre des tâches de programmation avec précision et efficacité. Il attribue des points en fonction de plusieurs facteurs, tels que des réponses sans erreur, l’inclusion de code exécutable et l’obtention d’une couverture complète des tests. De plus, le cadre évalue l’économie symbolique des modèles et la pertinence de leurs réponses, en déduisant des points pour verbosité ou non-pertinence. Cet accent mis sur les performances fonctionnelles fait de DevQualityEval un atout utile pour les développeurs et les utilisateurs souhaitant implémenter des modèles de langage étendus dans des paramètres du monde réel.

La configuration de DevQualityEval est simple. Les développeurs doivent installer Git and Go, cloner le référentiel et exécuter les commandes d’installation. Le benchmark peut ensuite être exécuté à l’aide du binaire « eval-dev-quality », qui génère des journaux détaillés et des résultats d’évaluation. Les développeurs peuvent spécifier les modèles à évaluer et obtenir des rapports complets dans des formats tels que CSV et Markdown. Le framework prend actuellement en charge openrouter.ai en tant que fournisseur LLM, et prévoit d’étendre la prise en charge à d’autres fournisseurs.

Ces informations aident les développeurs à prendre des décisions éclairées en fonction de leurs besoins et de leurs contraintes budgétaires. L’évaluation a également souligné la nécessité d’une approche plus nuancée des coûts et l’impact du « bavardage » sur la rentabilité.

Les futures versions de DevQualityEval incluront des fonctionnalités supplémentaires telles que des évaluations de stabilité, des rapports de couverture plus détaillés, et des cas de génération de tests plus complexes. Symflower encourage les commentaires et la collaboration de la communauté pour améliorer davantage le benchmark et ses évaluations.

Categories: IT Info