Le laboratoire chinois d’intelligence artificielle DeepSeek a présenté DeepSeek V3, son prochain modèle de langage genopen source. Doté de 671 milliards de paramètres, le modèle utilise une architecture dite de mélange d’experts (MoE) pour combiner efficacité de calcul et hautes performances.
Les avancées techniques de DeepSeek V3 le placent parmi les systèmes d’IA les plus puissants, rivalisant avec à la fois des concurrents open source comme Llama 3.1 de Meta et des modèles propriétaires comme GPT-4o d’OpenAI.
La version met en évidence un moment important dans l’IA, démontrant que les systèmes open source peuvent rivaliser avec-et dans certains cas surpassent-des alternatives fermées plus coûteuses.
Connexe :
Le modèle chinois DeepSeek R1-Lite-Preview cible l’avance d’OpenAI dans Raisonnement automatisé
Alibaba Qwen lance le modèle d’IA de raisonnement multimodal QVQ-72B-Preview
Architecture efficace et innovante
L’architecture de DeepSeek V3 combine deux concepts avancés pour obtenez une efficacité et des performances exceptionnelles : attention latente multi-têtes (MLA) et mélange d’experts (MoE).
MLA améliore la capacité du modèle pour traiter des entrées complexes en utilisant plusieurs têtes d’attention pour se concentrer sur différents aspects des données, en extrayant des informations contextuelles riches et diverses.
Le MoE, en revanche, n’active qu’un sous-ensemble des 671 milliards de paramètres au total du modèle. — environ 37 milliards par tâche — garantissant que les ressources informatiques sont utilisées efficacement sans compromettre la précision. Ensemble, ces mécanismes permettent à DeepSeek V3 de fournir des résultats de haute qualité tout en réduisant les exigences en matière d’infrastructure.
Pour répondre aux défis courants des systèmes du MoE, tels que la répartition inégale de la charge de travail entre les experts, DeepSeek a introduit un outil de gestion de charge auxiliaire sans perte. stratégie d’équilibrage. Cette méthode dynamique répartit les tâches à travers le réseau d’experts, maintenant la cohérence et maximisant la précision des tâches.
Illustration de l’architecture de base de DeepSeek-V3 (Image : DeepSeek)
Pour améliorer encore l’efficacité, DeepSeek V3 utilise la prédiction multi-token. (MTP), une fonctionnalité qui permet au modèle de générer plusieurs jetons simultanément, accélérant considérablement la génération de texte.
Cette fonctionnalité améliore non seulement l’efficacité de la formation, mais positionne également le modèle pour des applications plus rapides dans le monde réel, renforçant ainsi sa position. en tant que leader de l’innovation en matière d’IA open source.
Performances de référence : un leader en mathématiques et en codage
Les résultats de référence de DeepSeek V3 mettent en valeur ses capacités exceptionnelles dans un large spectre de tâches, renforçant ainsi sa position de leader parmi les modèles d’IA open source.
Grâce à son architecture avancée et à son vaste ensemble de données de formation, le modèle a atteint des performances de premier plan en mathématiques, en codage et en tests multilingues, tout en présentant également des résultats compétitifs dans des domaines traditionnellement dominés par des modèles fermés comme le GPT d’OpenAI.-4o et Claude 3.5 Sonnet d’Anthropic.
🚀 Présentation de DeepSeek-V3 !
Le plus grand pas en avant encore :
⚡ 60 jetons/seconde (3x plus rapide que la V2 !)
💪 Capacités améliorées
🛠 Compatibilité API intacte
🌍 Modèles et documents entièrement open source🐋 1/n pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) Décembre 26 novembre 2024
Le raisonnement mathématique
Sur le Test Math-500, une référence conçue pour évaluer les compétences en résolution de problèmes mathématiques, DeepSeek V3 a obtenu un score impressionnant de 90,2. Ce score le place devant tous les concurrents open source, avec Qwen 2.5 avec un score de 80 et Llama 3.1 avec un score de 73,8. Même GPT-4o, un modèle fermé réputé pour ses capacités générales, a obtenu un score légèrement inférieur à 74,6. Ces performances soulignent les capacités de raisonnement avancées de DeepSeek V3, en particulier dans les tâches de calcul intensives où la précision et la logique sont essentielles.
De plus, DeepSeek V3 a excellé dans d’autres tests spécifiques aux mathématiques, tels que :
MGSM (Math Grade School Math) : obtenu un score de 79,8, dépassant Lama 3,1 (69,9) et Qwen 2,5 (76,2). CMath (Mathématiques chinoises) : obtenu un score de 90,7, surpassant à la fois Llama 3.1 (77,3) et GPT-4o (84,5).
Ces résultats mettent en évidence sa force non seulement dans le raisonnement mathématique basé sur l’anglais, mais aussi dans des tâches nécessitant une résolution de problèmes numériques spécifiques à la langue.
Connexe : Série DeepSeek AI Open Sources VL2 de modèles de langage de vision
Programmation et codage
DeepSeek V3 s’est révélé remarquable prouesses dans les tests de codage et de résolution de problèmes. Sur Codeforces, une plateforme de programmation compétitive, le modèle a atteint un classement de 51,6 centiles, reflétant sa capacité à gérer des tâches algorithmiques complexes. Cette performance dépasse largement ses concurrents open source comme Llama 3.1, qui n’a obtenu que 25,3, et défie même Claude 3.5 Sonnet, qui a enregistré un percentile inférieur. Le succès du modèle a été en outre validé par ses scores élevés dans les tests de référence spécifiques au codage :
HumanEval-Mul : A obtenu un score de 82,6, surpassant Qwen 2,5 (77,3) et correspondant à GPT-4o (80,5). LiveCodeBench (Pass@1) : noté 37,6, devant Llama 3,1 (30,1) et Claude 3,5 Sonnet (32,8). CRUXEval-I : score de 67,3, nettement meilleur que Qwen 2,5 (59,1) et Llama 3,1 (58,5).
Ces résultats mettent en évidence l’adéquation du modèle aux applications de développement de logiciels et aux environnements de codage du monde réel, où la résolution efficace de problèmes et la génération de code sont primordiales.
Tâches multilingues et non anglaises
strong>
DeepSeek V3 se démarque également dans les tests multilingues, démontrant sa capacité à traiter et à comprendre un large éventail de langues. Au test CMMLU (Chinese Multilingual Language Understanding), le modèle a obtenu un score exceptionnel de 88,8, dépassant Qwen 2,5 (89,5) et dominant Llama 3.1, qui était à la traîne à 73,7. De même, sur C-Eval, un benchmark d’évaluation chinois, DeepSeek V3 a obtenu un score de 90,1, bien devant Llama 3.1 (72,5).
Dans les tâches multilingues non anglophones :
Benchmarks spécifiques à l’anglais
Bien que DeepSeek V3 excelle en mathématiques, codage et performances multilingues, ses résultats dans certains tests spécifiques à l’anglais reflètent une marge d’amélioration. Par exemple, sur le SimpleQA benchmark, qui évalue la capacité d’un modèle à répondre à des questions factuelles simples en anglais, DeepSeek V3 a obtenu un score de 24,9. , derrière GPT-4o, qui a atteint 38,2. De même, sur FRAMES, une référence pour comprendre les structures narratives complexes, GPT-4o a obtenu un score de 80,5, contre 73,3 pour DeepSeek.
Malgré ces lacunes, les performances du modèle restent très compétitives, notamment compte tenu de sa nature open source et de sa rentabilité. La légère sous-performance dans les tâches spécifiques à l’anglais est compensée par sa domination dans les tests de mathématiques et multilingues, domaines dans lesquels il défie systématiquement et dépasse souvent ses rivaux fermés.
Les résultats de test de DeepSeek V3 démontrent non seulement sa sophistication technique, mais le positionner également comme un modèle polyvalent et performant pour un large éventail de tâches. Sa supériorité en mathématiques, en codage et en tests multilingues met en évidence ses atouts, tandis que ses résultats compétitifs dans les tâches d’anglais montrent sa capacité à rivaliser avec des leaders de l’industrie comme GPT-4o et Claude 3.5 Sonnet.
En fournissant ces résultats à une fraction du coût associé aux systèmes propriétaires, DeepSeek V3 illustre le potentiel de l’IA open source pour rivaliser – et dans certains cas surpasser – les alternatives fermées.
Connexe : Apple prévoit de déployer l’IA en Chine via Tencent et ByteDance
Formation rentable à grande échelle
One de Les réalisations les plus remarquables de DeepSeek V3 sont son processus de formation rentable. Le modèle a été formé sur un ensemble de données de 14 800 milliards de jetons à l’aide de GPU Nvidia H800, avec une durée totale de formation de 2,788 millions d’heures GPU. Le coût global s’élève à 5,576 millions de dollars, soit une fraction des 500 millions de dollars estimés nécessaires pour entraîner le Llama 3.1 de Meta.
Le GPU NVIDIA H800 est une version modifiée du GPU H100 conçue pour le marché chinois afin de se conformer aux exigences d’exportation. règlements. Les deux GPU sont basés sur l’architecture Hopper de NVIDIA et sont principalement utilisés pour les applications d’IA et de calcul haute performance. Le taux de transfert de données de puce à puce du H800 est réduit à environ la moitié de celui du H100.
Le processus de formation a utilisé des méthodologies avancées, notamment la formation de précision mixte FP8. Cette approche réduit l’utilisation de la mémoire en codant les données dans un format à virgule flottante 8 bits sans sacrifier la précision. De plus, l’algorithme DualPipe a optimisé le parallélisme des pipelines, garantissant une coordination fluide entre les clusters GPU.
DeepSeek indique que la pré-formation de DeepSeek-V3 n’a nécessité que 180 000 heures de GPU H800 par billion de jetons, en utilisant un cluster de 2 048 GPU.
Accessibilité et déploiement
DeepSeek a rendu la V3 disponible sous licence MIT, permettant aux développeurs d’accéder au modèle pour des applications de recherche et commerciales. Les entreprises peuvent intégrer le modèle via la plateforme ou l’API DeepSeek Chat, dont le prix est compétitif à 0,27 $ par million de jetons d’entrée et 1,10 $ par million de jetons de sortie.
La polyvalence du modèle s’étend à sa compatibilité avec diverses plates-formes matérielles, notamment GPU AMD et NPU Huawei Ascend. Cela garantit une large accessibilité aux chercheurs et aux organisations ayant des besoins en infrastructure divers.
DeepSeek a souligné l’importance qu’il accorde à la fiabilité et aux performances, en déclarant : « Pour garantir le respect des SLO et un débit élevé, nous utilisons une stratégie de redondance dynamique pour les experts pendant la phase de pré-remplissage, où les experts à forte charge sont périodiquement dupliqués et réorganisés. pour des performances optimales.”
Implications plus larges pour l’écosystème de l’IA
La sortie de DeepSeek V3 souligne une tendance plus large vers la démocratisation de l’IA. En proposant un modèle haute performance à une fraction du coût associé aux systèmes propriétaires, DeepSeek remet en question la domination des acteurs du secteur fermé comme OpenAI et Anthropic. La disponibilité de ces outils avancés permet une expérimentation et une innovation plus larges dans tous les secteurs..
Le pipeline de DeepSeek intègre des modèles de vérification et de réflexion de son modèle R1 dans DeepSeek-V3, améliorant ainsi les capacités de raisonnement tout en gardant le contrôle sur le style et la longueur du résultat.
Le succès de DeepSeek V3 soulève des questions sur le futur équilibre des pouvoirs dans l’industrie de l’IA. Alors que les modèles open source continuent de combler l’écart avec les systèmes propriétaires, ils offrent aux organisations des alternatives compétitives qui privilégient l’accessibilité et la rentabilité.