Tout en mettant publiquement en garde contre « l’irrationalité » du marché de l’IA, les dirigeants de Google ont ordonné en privé une expansion agressive de l’infrastructure pour doubler la capacité de service de l’IA tous les six mois.
Selon une présentation consultée par CNBC cette semaine, la directive vise une multiplication par 1 000 d’ici cinq ans pour prendre en charge « l’ère de l’inférence » lourde de calcul.
Délivré par le vice-président de l’infrastructure Amin Vahdat, ce mandat interne contraste fortement avec les récents commentaires du PDG Sundar Pichai dans une une interview. avec la BBC à propos d’une bulle potentielle.
Motivée par la peur existentielle du sous-investissement, la stratégie s’appuie sur du silicium personnalisé comme les puces Ironwood TPU de Google pour empêcher les coûts de monter en flèche parallèlement à la croissance de la capacité.
Le mandat 1 000x : dans la salle de guerre de Google
Les détails émergeant de la réunion générale du 6 novembre dressent le portrait d’une entreprise fonctionnant sur des bases de guerre.
Le vice-président de l’infrastructure, Amin Vahdat, a présenté une feuille de route intitulée”Infrastructure IA”qui définit les exigences de croissance exponentielle nécessaires pour suivre le rythme de la demande. Explicitement, la directive exige que Google double sa capacité de service d’IA tous les six mois pour maintenir sa position concurrentielle.
Les projections à long terme visent une multiplication par 1 000 de la capacité en seulement quatre à cinq ans. Le moteur de cette accélération n’est pas la formation de modèles, qui a historiquement consommé la majeure partie des ressources de calcul, mais un changement fondamental vers « l’ère de l’inférence ».
Des modèles comme le Gemini 3 Pro récemment lancé nécessitent une puissance de calcul massive et continue pour effectuer des tâches de raisonnement et exécuter du code.
Vahdat a averti que « la concurrence dans les infrastructures d’IA est la partie la plus critique et aussi la plus coûteuse de la course à l’IA. »
Ce sentiment a été renforcé par le PDG Sundar Pichai, qui a cité des opportunités manquées. avec l’outil de génération vidéo de l’entreprise, Veo, en raison de limitations matérielles. Pichai a admis que malgré une forte croissance du cloud, « ces chiffres auraient été bien meilleurs si nous avions eu plus de calcul. »
Loin de se replier face au scepticisme du marché, le ton interne présente 2026 comme une année « intense » de « hauts et de bas ». Le message des dirigeants est clair : la principale contrainte à la croissance n’est plus la capacité logicielle mais la disponibilité physique du calcul.
Le bouclier de silicium : Ironwood, Axion et le piège de l’efficacité
Multiplier la capacité par 1 000 à l’aide de matériel disponible dans le commerce serait financièrement ruineux. La stratégie de Google repose sur le découplage des gains de performances et des augmentations linéaires des coûts. Vahdat a souligné les exigences techniques :
“Google doit être capable de fournir 1 000 fois plus de capacités, de calcul et de réseau de stockage pour essentiellement le même coût et, de plus en plus, la même puissance, le même niveau d’énergie”, a déclaré Vahdat.”
Cette expansion massive repose sur une réalité économique simple mais brutale : l’efficacité est la seule voie vers la durabilité. Le recours au TPU Ironwood, qui est entré en disponibilité générale récemment, est au cœur de cette stratégie.
Réclamant une amélioration des performances maximales de 10 fois par rapport au v5p, cette puce de septième génération offre des performances par watt 2x par rapport à la génération Trillium précédente.
Les charges de travail à usage général sont déchargées vers les nouveaux processeurs Axion basés sur Arm afin de libérer de l’énergie et de la marge thermique pour les tâches d’IA. En déplaçant les tâches de calcul standard vers des processeurs plus efficaces, Google vise à maximiser l’énergie disponible pour ses TPU gourmands en énergie.
Adoptant une philosophie de « co-conception », les ingénieurs intègrent les logiciels directement à l’architecture matérielle. Les recherches de Google DeepMind éclairent la conception de la puce, permettant à l’entreprise de réaliser des gains là où le matériel standard ne le peut pas. Vahdat a souligné que « ce ne sera pas facile, mais grâce à la collaboration et à la co-conception, nous y parviendrons. »
Cependant, le « piège de l’efficacité » apparaît très menaçant. Le paradoxe de Jevon suggère qu’à mesure que le calcul devient plus efficace, la demande augmentera pour consommer le surplus, annulant ainsi les économies de coûts. Si le coût de l’inférence baisse, le volume de requêtes – piloté par des workflows agents et un raisonnement de « réflexion approfondie » – devrait exploser, maintenant la consommation totale d’énergie élevée.
Le paradoxe de la bulle: parier contre « l’irrationalité »
Au milieu d’un scepticisme externe croissant concernant le retour sur investissement (ROI) de l’IA générative, cette expansion interne agressive se poursuit.
Dans une interview avec le BBC, Pichai a reconnu qu’il y a des « éléments d’irrationalité » dans la valorisation actuelle de l’IA sur le marché. Malgré cette prudence du public, Alphabet a relevé ses prévisions de dépenses en capital pour 2025 à 93 milliards de dollars, avec une « augmentation significative » prévue pour 2026.
Les employés ont directement contesté le leadership sur cette déconnexion lors de la séance de questions-réponses. Une question traitait spécifiquement de la tension entre la flambée des dépenses et la crainte d’une correction du marché :
“Au milieu d’investissements importants dans l’aluminium et des discussions du marché sur une éventuelle explosion de la bulle de l’aluminium, comment envisageons-nous d’assurer la durabilité et la rentabilité à long terme si le marché de l’aluminium n’arrive pas à maturité comme prévu ?”
La défense de Pichai repose sur le bilan de l’entreprise. Il a soutenu: « Nous sommes mieux placés pour résister, vous savez, aux échecs, que d’autres entreprises. »
Défensivement, la logique postule que le risque de sous-investir – et potentiellement de devenir inutile – est existentiel, alors que le surinvestissement est simplement coûteux.
Ce raisonnement est actuellement à l’origine du boom actuel des dépenses d’investissement en IA, où la construction d’infrastructures se détache de la réalité immédiate des revenus. Google parie effectivement qu’il peut survivre à ses concurrents dans une guerre d’usure à forte intensité de capital.
Réalité du marché : le dilemme du prisonnier de l’IA
Collectivement, les « quatre grands » – Google, Microsoft, Amazon et Meta – devraient dépenser plus de 380 milliards de dollars en infrastructures cette année, selon chiffres cités par CNBC. Cette semaine, le PDG de Nvidia, Jensen Huang, a explicitement rejeté le récit de la « bulle », citant une demande tangible, un point de vue contre lequel Google doit se protéger.
Le concurrent OpenAI est confronté à ses propres difficultés. Une note interne de Sam Altman parue cette semaine suggère que le leader du secteur est de plus en plus aux prises avec les réalités économiques de la mise à l’échelle. Cela crée une opportunité pour Google de tirer parti de son intégration verticale.
Déplacer le goulot d’étranglement de la disponibilité des données vers la vitesse et le coût de génération de jetons purs est « l’ère de l’inférence ». L’avantage spécifique de Google réside dans sa pile de silicium personnalisée, qui lui permet potentiellement de mieux résister à une guerre des prix qui écrase les marges que ceux qui dépendent uniquement du matériel Nvidia.
Les lancements de produits récents, tels que Gemini 3 Pro et Gemini 3 Pro Image, stimulent davantage cette demande. En fin de compte, le résultat dépend de la capacité des fonctionnalités premium telles que « Deep Think » et des flux de travail agents à générer des revenus plus rapidement que le matériel ne se déprécie.
Malgré les coûts faramineux impliqués, Google semble jusqu’à présent engagé dans une stratégie « construisez-le et ils viendront ».