AWS a fait un grand pas en avant dans l’infrastructure d’IA en dévoilant ses puces Trainium2 de deuxième génération et en introduisant les UltraServers Trn2, conçus pour repousser les limites des performances des modèles de langage étendus (LLM).
Annoncé à la re:Invent, ces développements positionnent AWS comme un acteur redoutable dans le paysage de l’IA en évolution rapide. AWS a également présenté en avant-première Trainium3, une puce de nouvelle génération promettant des performances multipliées par quatre, dont la sortie est prévue fin 2025.
David Brown, vice-président du calcul et des réseaux chez AWS, a décrit l’importance de ces innovations :
« Trainium2 est la puce AWS la plus performante créée à ce jour. Et avec des modèles approchant des milliards de paramètres, nous savions que les clients auraient besoin d’une nouvelle approche pour former et exécuter ces modèles massifs. Les nouveaux UltraServers Trn2 offrent les performances de formation et d’inférence les plus rapides sur AWS pour les plus grands modèles au monde.”
Trainium2 : débloquer une puissance de calcul sans précédent
Les puces Trainium2 sont conçues pour répondre aux exigences informatiques croissantes des modèles d’IA modernes, offrant jusqu’à 20,8 pétaflops de calcul FP8 dense par instance.
Chaque instance EC2 Trn2 intègre 16 puces Trainium2 connectées via NeuronLink, propriété exclusive d’AWS. interconnexion, qui garantit une communication à faible latence et à bande passante élevée. Cette architecture permet une évolutivité transparente, essentielle pour la formation et le déploiement étendu. LLM.
AWS a présenté les capacités de Trainium2 avec le modèle Llama 405B de Meta, qui a atteint « un débit de génération de jetons trois fois supérieur à celui des autres offres disponibles des principaux fournisseurs de cloud », selon la société.
Cette amélioration accélère considérablement les tâches telles que la génération de texte, la synthèse et l’inférence en temps réel, répondant ainsi aux demandes des entreprises qui s’appuient sur l’IA générative.
[contenu intégré]
UltraServers : évoluer au-delà des limites
Pour les entreprises s’attaquant à des modèles comportant des milliards de paramètres, AWS a introduit les UltraServers Trn2, qui combinent 64 puces Trainium2 pour offrir jusqu’à 83,2 pétaflops de performances FP8 clairsemées..
Les serveurs permettent des temps de formation plus rapides et une inférence en temps réel pour des modèles d’IA ultra-larges, ce qui représente une avancée cruciale pour les entreprises visant à déployer des modèles hautement complexes. systèmes.
Gadi Hutt, directeur principal chez Annapurna Labs, a expliqué les capacités des UltraServers :
“Ensuite, nous brisons cette limite [16 puces] et fournissons 64 puces dans l’UltraServer, et c’est pour les modèles extrêmement grands. Donc, si vous avez un modèle de 7 milliards de paramètres, qui était autrefois grand, mais plus maintenant, ou un modèle extrêmement grand, appelons-le 200 milliards ou 400 milliards. Vous souhaitez servir avec la latence la plus rapide possible. Vous utilisez donc UltraServer.”
Collaboration avec Anthropic : création du plus grand cluster d’IA
AWS s’est associé à Anthropic pour développer le projet Ranier, un outil de calcul cluster qui comportera des centaines de milliers de puces Trainium2.
AWS le décrit comme cinq fois plus puissant que les systèmes actuels d’Anthropic et le plus grand cluster de calcul d’IA au monde signalé à ce jour. souligne l’engagement d’AWS à doter ses partenaires d’une technologie de pointe.
Anthropic, connu pour son LLM Claude 3.5 Sonnet, s’appuie sur l’infrastructure AWS pour conserver un avantage concurrentiel face à des concurrents comme OpenAI et Google. AWS a récemment doublé son chiffre d’affaires. investissement dans Anthropic à 8 milliards de dollars, renforçant ainsi son orientation stratégique sur l’IA générative.
Trainium3 : Façonner l’avenir de l’IA. Calcul
AWS a également annoncé Trainium3, sa prochaine puce construite sur un processus de trois nanomètres, qui promet d’offrir quatre fois les performances des UltraServers. Son lancement est prévu fin 2025, Trainium3 permettra une formation et une inférence encore plus rapides pour les modèles d’IA de nouvelle génération, renforçant ainsi le leadership d’AWS dans le domaine du calcul de l’IA.
David Brown a présenté la vision d’AWS pour la nouvelle puce :”Avec notre Avec les puces Trainium3 de troisième génération, nous allons permettre aux clients de construire des modèles plus grands plus rapidement et d’offrir des performances en temps réel supérieures lors de leur déploiement.”
La stratégie d’AWS avec Trainium3 vise à défier la domination de Nvidia. sur le marché du matériel d’IA. Alors que les prochains GPU Blackwell de Nvidia offrent jusqu’à 720 pétaflops de performances FP8, les solutions Trainium intégrées d’AWS offrent une alternative rentable et évolutive adaptée aux charges de travail d’IA à l’échelle de l’entreprise.
Prise en charge de l’écosystème : outils pour une intégration transparente
Pour compléter ses innovations matérielles, AWS fournit le SDK Neuron, une boîte à outils de développement optimisée pour des frameworks tels que PyTorch et JAX.
Le SDK comprend des outils de formation et d’inférence distribués, permettant aux développeurs d’exploiter les puces Trainium sans reconfiguration approfondie.
AWS propose également des AMI de Deep Learning préconfigurées, garantissant que les développeurs peuvent déployer rapidement leurs applications d’IA.