Le géant chinois de la technologie Alibaba a dévoilé un nouveau système puissant qui réduit jusqu’à 82 % le coût de fonctionnement de l’intelligence artificielle.
La technologie, appelée Aegaeon, répond à un défi crucial pour les fournisseurs de cloud : comment servir efficacement des milliers de modèles d’IA spécialisés que les clients utilisent rarement.
Dans une recherche présentée au Symposium sur les principes des systèmes d’exploitation (SOSP) à Séoul, l’un des lieux les plus prestigieux en informatique, Alibaba a expliqué comment la planification intelligente d’Aegaeon regroupe le matériel GPU coûteux bien plus efficacement que les méthodes actuelles.
Au cours d’un essai de trois mois, le système a permis à Alibaba Cloud de servir une vaste collection de modèles en utilisant seulement 213 GPU au lieu de 1 192, réduire considérablement les coûts opérationnels de son marché de l’IA.
L’innovation cible directement l’immense gaspillage inhérent à l’infrastructure d’IA actuelle. Les propres données d’Alibaba ont révélé un déséquilibre flagrant : 17,7 % de sa flotte de GPU était utilisée pour servir une « longue traîne » de modèles de niche qui ne représentaient que 1,35 % du total des demandes des clients.
Pour les plates-formes cloud hébergeant un marché croissant de modèles divers, cette inefficacité représente une dépense opérationnelle massive et insoutenable.
Le développement d’Aegaeon, co-écrit par Zhou Jingren, CTO d’Alibaba Cloud, signale une poussée stratégique de haut niveau pour résoudre ce problème.
Des GPU inactifs à la planification intelligente : la percée d’Aegaeon
À la base, Aegaeon remplace la mise à l’échelle grossière au niveau des requêtes utilisée par de nombreux systèmes par une « niveau de jeton » beaucoup plus granulaire.”approche de mise à l’échelle automatique”.
Les systèmes traditionnels doivent attendre qu’un modèle ait complètement fini de générer une réponse pour un utilisateur. Ce processus bloque le GPU, créant un grave « blocage de tête de ligne », dans lequel les demandes urgentes concernant d’autres modèles restent bloquées dans une file d’attente derrière une tâche de longue durée.
L’architecture d’Aegaeon est plus intelligente. Il peut suspendre le processus d’un modèle à mi-génération, jeton par jeton, pour traiter rapidement une demande nouvellement arrivée pour un modèle différent sur le même matériel.
Cette planification préemptive permet à un seul GPU de servir de manière fluide plusieurs modèles disparates (jusqu’à sept par GPU lors des tests) sans les longs délais qui violent les objectifs de niveau de service.
Selon le document de recherche, ce contrôle à granularité fine est incroyablement efficace. Aegaeon utilise une série d’optimisations complètes, y compris la réutilisation des composants pour accélérer la réinitialisation du moteur et la gestion explicite de la mémoire pour éviter la fragmentation, qui ensemble réduisent la surcharge typique associée à la mise à l’échelle automatique d’un remarquable 97 %.
En conséquence, Alibaba affirme qu’Aegaeon peut supporter des taux de requêtes 2 à 2,5 fois plus élevés que les solutions alternatives, modifiant fondamentalement l’économie du service d’un modèle diversifié. catalogue.
Au-delà de la force brute : comment la mise à l’échelle au niveau des jetons résout le problème de longue traîne de l’IA
Cette avancée en matière d’efficacité opérationnelle se distingue des innovations qui réduisent les coûts de formation de l’IA. Tout en permettant d’énormes économies, les débuts d’Aegaeon ne sont pas une répétition du moment DeepSeek de janvier 2025.
Cet événement a vu un article de la société chinoise DeepSeek suggérer des méthodes de formation radicalement moins chères, déclenchant une vente massive d’actions technologiques qui a frappé particulièrement durement les fabricants de GPU comme Nvidia.
Au lieu de cela, Aegaeon s’attaque au défi tout aussi critique, bien que moins médiatique, de l’inférence. coûts : le prix de l’*exécution* réelle des modèles d’IA en production.
Résoudre ce problème est une nécessité stratégique pour Alibaba. La société poursuit une stratégie d’IA agressive, en publiant un flux constant de modèles open source et propriétaires pour des tâches allant du codage au raisonnement multimodal.
Cette stratégie même crée la « longue traîne » de modèles spécialisés qui rendent Aegaeon si précieux. En créant une plate-forme efficace pour les gérer, Alibaba peut rendre son marché tentaculaire de l’IA économiquement viable.
Un nouveau front dans la course aux armements en matière d’IA : la poussée de l’efficacité à l’échelle de l’industrie
L’accent mis par Alibaba sur la planification est l’un des nombreux fronts dans une guerre à l’échelle de l’industrie contre les coûts faramineux de l’IA.
Avec le prix de la formation et de l’inférence. Restant un obstacle majeur à une adoption généralisée, les principaux acteurs attaquent le problème d’efficacité sous différents angles, créant un paysage d’innovation diversifié dans lequel chaque partie de la pile d’IA est optimisée.
Une approche populaire consiste à repenser l’architecture du modèle elle-même. Les récents modèles Granite 4.0 d’IBM, par exemple, utilisent une conception hybride mélangeant des blocs Transformer avec des couches Mamba très efficaces. Cette méthode recherche l’efficacité en créant un moteur fondamentalement plus léger à partir de zéro, ciblant la charge de calcul de base.
Pour Raghu Ganti, responsable du projet IBM, « tout revient à la réduction du cache KV… Plus de débit, une latence plus faible, une longueur de contexte plus longue. »
Une autre stratégie vise l’optimisation de la mémoire au sein de l’architecture dominante du Transformer. Les modèles de mémoire d’attention neuronale (NAMM) de Sakana AI, basés à Tokyo, utilisent des algorithmes évolutifs pour gérer intelligemment le cache KV d’un modèle, un goulot d’étranglement majeur en matière de mémoire.
Cette technique réduit considérablement l’empreinte mémoire pour les tâches impliquant des contextes longs.
Des approches plus radicales émergent également qui remettent entièrement en question le paradigme de mise à l’échelle. Cet été, des chercheurs ont dévoilé un modèle de vision semblable au cerveau qui imite les structures neuronales humaines pour une efficacité énergétique supérieure.
L’un de ses co-auteurs, Zejin Lu, a expliqué le concept :”Pour les humains, lorsque vous détectez certains objets, ils ont une position typique. Vous savez déjà que les chaussures sont généralement en bas, au sol. L’avion, c’est en haut.”
Le modèle résultant consomme plus. dix fois moins d’énergie qu’une IA standard, ce qui prouve qu’un design élégant peut parfois battre la force brute.
La planification dynamique d’Aegaeon est une approche puissante et complémentaire à ces autres méthodes. Cela prouve qu’une ingénierie de systèmes sophistiquée peut générer des économies aussi importantes que celles résultant d’une refonte architecturale, garantissant ainsi que la révolution de l’IA peut devenir une réalité commerciale durable.