Google intensifie ses efforts pour dominer le matériel d’IA. Jeudi, la société a annoncé que sa puce personnalisée la plus puissante, l’Ironwood TPU, entre désormais en disponibilité générale pour ses clients cloud.
Conçu pour répondre à la demande croissante d’inférence d’IA, ce nouveau processeur s’attaque au travail en temps réel derrière les chatbots. Pour prendre en charge ces systèmes d’IA, Google a également lancé de nouveaux processeurs Axion économiques pour les tâches informatiques quotidiennes.
Cette décision stratégique cible des clients clés comme Anthropic et renforce le défi de Google face au leader du marché Nvidia dans la bataille critique pour l’infrastructure d’IA.
Ironwood : une centrale de silicium personnalisée pour l’ère de l’inférence
Pour alimenter la prochaine génération de modèles d’IA, Google parie sur une stratégie d’intégration verticale.
Au cœur de cet effort se trouve son unité de traitement tensoriel de septième génération, Ironwood, qui a été dévoilée pour la première fois en avril.
Maintenant disponible en disponibilité générale, la puce est spécialement conçue pour ce que Google appelle « l’ère de l’inférence », le passer de la formation de modèles massifs à leur déploiement pour des interactions utiles et réactives à grande échelle.
Ironwood offre un bond significatif en termes de performances, conçu pour répondre aux exigences complexes de la formation et du service des plus grands modèles d’IA actuels.
Selon Google, la nouvelle architecture offre un amélioration des performances maximales de 10 fois par rapport à son prédécesseur TPU v5p et performances par puce plus de quatre fois supérieures à celles de la génération Trillium précédente.
Dans sa plus grande configuration, un système Ironwood peut atteindre un taux stupéfiant de 42,5. exaFLOPS de puissance de calcul FP8, une mesure essentielle pour l’arithmétique de faible précision qui domine les charges de travail d’IA modernes.
Cette puissance brute est associée à une concentration sur l’efficacité ; Ironwood affiche des performances par watt deux fois supérieures à celles de Trillium, ce qui en fait la puce la plus économe en énergie de Google à ce jour.
Pic des flops par watt Google TPU (Source : Google)
Ce niveau de performance n’est utile que s’il peut être mis à l’échelle, et l’architecture d’Ironwood est conçue pour un fonctionnement massif et cohérent.
Un seul « superpod » Ironwood peut relier jusqu’à 9 216 puces individuelles, leur permettant de fonctionner comme une seule et unifiée. superordinateur. La base de ce système est une structure d’interconnexion inter-puces (ICI) à haut débit qui fournit jusqu’à 9,6 térabits par seconde de bande passante entre les puces, créant une topologie Torus 3D dense.
Ce réseau permet aux puces d’accéder à un pool partagé colossal de 1,77 pétaoctets de mémoire à large bande passante (HBM), éliminant ainsi les goulots d’étranglement de données qui peuvent paralyser les travaux d’IA à grande échelle.
Pour connecter ces groupes de puces, Google utilise un réseau OCS (Optical Circuit Switch) dynamique. Cette structure reconfigurable est essentielle à la fois à l’évolutivité et à la résilience.
Comme détaillé dans la présentation technique de l’entreprise, l’OCS peut contourner optiquement tout matériel défaillant et établir de nouveaux circuits complets connectant uniquement les unités saines.
Google Architecture Ironwood TPU (Source : Google)
Pour les clients qui effectuent des tâches de formation pouvant durer des semaines, cette tolérance dynamique aux pannes est une fonctionnalité essentielle qui évite les interruptions coûteuses et optimise la disponibilité productive de l’ensemble du système.
Ce matériel avancé est profondément intégré à une pile logicielle co-conçue et basée sur une philosophie d’optimisation au niveau du système. À sa base se trouve le compilateur d’algèbre linéaire accélérée (XLA) de Google, qui traduit le code de haut niveau provenant de frameworks populaires tels que JAX et PyTorch en instructions machine hautement optimisées.
Le compilateur est explicitement conçu pour cibler le matériel spécialisé du TPU, y compris ses unités de multiplication matricielles (MXU) denses et ses unités de traitement vectoriel (VPU). En fusionnant automatiquement les opérations dans des noyaux efficaces, XLA offre de puissantes performances prêtes à l’emploi.
À titre d’inférence, la société a encore optimisé la pile en permettant de servir des moteurs de pointe comme vLLM sur Ironwood via un nouveau, backend unifié, rendant son immense puissance plus accessible aux développeurs déployant des modèles en production.
La poussée matérielle de Google fait partie d’une stratégie d’infrastructure beaucoup plus vaste et à plusieurs volets.
Dans des rapports récents, nous avons mis en avant certains des projets ambitieux de Google, depuis un centre de données d’IA géopolitiquement stratégique sur l’île Christmas en Australie jusqu’au projet « Moonshot » Suncatcher, qui vise à construire des centres de données alimentés par TPU dans l’espace.
Les initiatives mettent en évidence le des ressources colossales sont nécessaires pour rester à la pointe de l’IA.
[contenu intégré]
Expansion d’Axion : redéfinir l’informatique à usage général
Au-delà des accélérateurs spécialisés pour l’IA, les applications modernes nécessitent une base puissante et efficace pour les charges de travail quotidiennes.
Google s’attaque à ce problème en élargissant son portefeuille de processeurs Axion personnalisés basés sur Arm. La société a annoncé que ses nouvelles machines virtuelles N4A sont désormais en avant-première, parallèlement à la prochaine avant-première de C4A metal, ses premières instances nues basées sur Arm.
Conçus pour offrir un rapport qualité-prix supérieur, ces processeurs gèrent les tâches générales qui prennent en charge les applications d’IA, notamment la préparation des données, les microservices conteneurisés et le service Web.
Google Processeur Axion (Source : Google)
Les premiers commentaires des clients mettent en évidence des gains significatifs. Sergei Koren, architecte d’infrastructure en chef chez ZoomInfo, a fait l’éloge des nouvelles instances, déclarant: « Dans notre aperçu des nouvelles instances N4A, nous avons mesuré une amélioration de 60 % du rapport prix-performance pour ces charges de travail clés par rapport à leurs homologues basées sur x86. alternative claire et plus efficace aux processeurs traditionnels.
Selon Mark Lohmeyer, vice-président et directeur général de l’IA et de l’infrastructure informatique chez Google Cloud,”ils auront des performances 50 % supérieures à celles des processeurs comparables de la génération x86 et une efficacité énergétique 60 % supérieure à celle des instances comparables basées sur x86.”
Adoptions stratégiques et course à l’armement de l’IA
L’engagement massif d’Anthropic constitue une puissante validation pour Le silicium personnalisé de Google. Le laboratoire d’IA, développeur de la famille de modèles Claude, prévoit d’accéder à jusqu’à 1 million de TPU, ce qui témoigne d’une grande confiance dans les capacités de la plateforme en matière de formation et d’inférence.
James Bradbury, responsable du calcul de l’entreprise, a expliqué l’avantage :”Les améliorations apportées par Ironwood en termes de performances d’inférence et d’évolutivité de la formation nous aideront à évoluer efficacement tout en maintenant la vitesse et la fiabilité attendues par nos clients.”
Pourtant, cet accord majeur existe dans une réalité complexe et multi-cloud. Bien que ce partenariat constitue une victoire importante pour Google, les rapports précisent qu’Anthropic maintient une stratégie d’infrastructure diversifiée, Amazon Web Services restant son principal fournisseur de cloud.
Il reflète une tendance plus large du secteur selon laquelle les principaux laboratoires d’IA évitent de dépendre d’un seul fournisseur, une stratégie déjà vue lorsque OpenAI a commencé à utiliser Google Cloud pour compléter son infrastructure de base Microsoft Azure.
Se déroulant dans un contexte d’intense course aux armements en matière d’IA, les efforts de Google en matière de silicium personnalisé visent directement à concurrencer le marché de Nvidia. domination. Pour être compétitif, des investissements considérables sont nécessaires.
Pour répondre à la demande croissante, Google a récemment augmenté ses prévisions de dépenses en capital pour l’année, passant de 85 milliards de dollars à 93 milliards de dollars.
Un engagement financier aussi immense démontre que le contrôle du matériel sous-jacent est désormais considéré comme un avantage concurrentiel essentiel.
En déployant à la fois les TPU Ironwood hautement spécialisés et les processeurs Axion efficaces et à usage général, Google présente une gamme complète, solution co-conçue.
L’entreprise parie qu’offrir à ses clients une pile matérielle optimisée et rentable, de la puce au centre de données, sera la clé pour remporter la prochaine phase de la révolution de l’IA.