Le dévoilement récent de MLPerf Inference v3.1 a mis en avant de nouvelles références pour les grandes Modèles de langage (LLM) et recommandations, ce qui signifie une avancée significative dans les tests d’IA. Les benchmarks MLPerf, développés par MLCommons, un consortium de leaders universitaires en IA, de laboratoires de recherche et de l’ensemble du secteur, sont conçus pour fournir des évaluations impartiales de performances de formation et d’inférence pour le matériel, les logiciels et les services.

La nouvelle version a connu un niveau de participation sans précédent, avec plus de 13 500 résultats de performances, marquant jusqu’à 40 % d’amélioration des performances. La diversité des participations est évidente avec 26 participants distincts, dont de grandes entreprises technologiques comme Google, Intel et NVIDIA, ainsi que des nouveaux participants tels que Connect Tech, Nutanix, Oracle et TTA.

David Kanter, directeur exécutif de MLCommons, a souligné l’importance de cette contribution, déclarant :”Se soumettre à MLPerf n’est pas anodin… Cela nécessite un véritable travail d’ingénierie et constitue un témoignage à l’engagement de nos soumissionnaires envers l’IA, envers leurs clients et envers le ML.”

@MLCommons, nous venons de sortir ! Nouveau @MLPerf Résultats d’inférence et de stockage. Une participation record à MLPerf Inference v3.1 et les premiers résultats de MLPerf Storage v0.5 soulignent l’importance croissante de GenAI. et le stockage. Consultez tous les résultats et apprenez-en davantage https://t.co/7eycrrmOdw

— MLCommons (@ MLCommons) 11 septembre 2023

Résultats des tests de référence

L’objectif principal de MLPerf Inference est d’évaluer la vitesse à laquelle les systèmes d’IA peuvent exécuter des modèles dans différents scénarios de déploiement. Celles-ci vont des chatbots génératifs avancés à l’IA aux fonctionnalités de sécurité des véhicules telles que le maintien automatique de la voie et les interfaces parole-texte. L’accent est mis dans cette version sur l’introduction de deux benchmarks :

Un LLM utilisant le modèle de référence GPT-J pour résumer les articles d’actualité de CNN, reflétant l’adoption rapide de l’IA générative avec 15 participants. Une référence de recommandation mise à jour, plus alignée sur les normes de l’industrie, utilisant le modèle de référence DLRM-DCNv2 et des ensembles de données plus importants, recevant neuf soumissions.

Pour afficher les résultats de MLPerf Inference v3.1 et MLPerf Storage v0.5, et pour trouver des informations supplémentaires sur les tests de performance, veuillez visiter :

https://mlcommons.org/en/storage-results-05/
https://mlcommons.org/en/inference-edge-31/
https://mlcommons.org/en/inference-datacenter-31/

La domination de NVIDIA et la poursuite étroite d’Intel

Les puces avancées de NVIDIA se sont imposées comme les principaux concurrents lors des tests sur un modèle de langage étendu, suivies de près par le matériel d’Intel. MLCommons, connu pour ses analyses comparatives neutres des performances des chipsets IA, a annoncé les résultats de ses nouveaux tests MLPerf Inference 3.1.

NVIDIA a présenté son GH200 Grace Hopper Superchip, qui fusionne une unité de traitement graphique Hopper avec une unité centrale de traitement Grace, offrant des capacités améliorées de mémoire, de bande passante et de transfert de tâches entre les GPU et processeur basé sur Arm. Ce chipset a surpassé le système HGX 100 de NVIDIA d’environ 17 %. Cependant, les accélérateurs Habana Gaudi2 d’Intel n’étaient pas loin derrière, affichant un retard de performances de seulement 10 % par rapport aux systèmes NVIDIA.

Cette semaine, Nvidia a annoncé une nouvelle mise à jour logicielle qui double efficacement les performances de son GPU H100 AI. Le nouveau logiciel open source TensorRT-LLM de la société, dont la sortie est prévue dans les semaines à venir, a démontré une amélioration significative des performances.

Dans tests utilisant le modèle GPT-J 6B, le système mis à jour a présenté une amélioration des performances par huit par rapport à l’A100, un bond significatif par rapport au quadruple avantage précédent.. De plus, lorsqu’ils ont été évalués sur le Llama2 LLM de Meta, les H100 améliorés par TensorRT-LLM ont dépassé les A100 d’un facteur de 4,6, une nette amélioration par rapport aux 2,6 fois précédant la mise à jour.

Categories: IT Info