Il colosso tecnologico cinese Alibaba ha rivelato un nuovo potente sistema che riduce i costi di gestione dell’intelligenza artificiale fino all’82%.
La tecnologia, chiamata Aegaeon, affronta una sfida fondamentale per i fornitori di servizi cloud: come servire in modo efficiente migliaia di modelli di intelligenza artificiale specializzati che i clienti utilizzano raramente.
Nella ricerca presentata al Simposio sui principi dei sistemi operativi (SOSP) a Seoul, una delle sedi più prestigiose nel campo dell’informatica, Alibaba ha spiegato in dettaglio come la pianificazione intelligente di Aegaeon raggruppa costosi hardware GPU in modo molto più efficace rispetto ai metodi attuali.
Durante una prova di tre mesi, il sistema ha consentito ad Alibaba Cloud di servire una vasta raccolta di modelli utilizzando solo 213 GPU invece di 1.192, riducendo drasticamente i costi operativi per il suo mercato dell’intelligenza artificiale.
L’innovazione mira direttamente all’immenso spreco insito nell’infrastruttura AI di oggi. I dati di Alibaba hanno rivelato un netto squilibrio: il 17,7% del suo parco GPU era impegnato a servire una”coda lunga”di modelli di nicchia che rappresentavano solo l’1,35% delle richieste totali dei clienti.
Per le piattaforme cloud che ospitano un mercato in crescita di modelli diversi, questa inefficienza rappresenta una spesa operativa enorme e insostenibile.
Lo sviluppo di Aegaeon, coautore da Zhou Jingren, CTO di Alibaba Cloud, segnala una spinta strategica di alto livello per risolvere questo problema.
Dalle GPU inattive alla pianificazione intelligente: la svolta di Aegaeon
Sostanzialmente, Aegaeon sostituisce il grezzo ridimensionamento a livello di richiesta utilizzato da molti sistemi con un”livello di token”molto più granulare approccio”auto-scaling”.
I sistemi tradizionali devono attendere che un modello finisca completamente di generare una risposta per un utente. Questo processo blocca la GPU, creando un grave”blocco head-of-line”, in cui le richieste urgenti per altri modelli rimangono bloccate in coda dietro un’attività a lunga esecuzione.
L’architettura di Aegaeon è più intelligente. Può mettere in pausa il processo di un modello a metà generazione, token per token, per gestire rapidamente una richiesta appena arrivata per un modello diverso sullo stesso hardware.
Questa pianificazione preventiva consente a una singola GPU di servire in modo fluido più modelli disparati, fino a sette per GPU in fase di test, senza i lunghi ritardi che violano gli obiettivi del livello di servizio.
Secondo documento di ricerca, questo controllo capillare è incredibilmente efficace. Aegaeon utilizza una serie di ottimizzazioni full-stack, tra cui il riutilizzo dei componenti per accelerare la reinizializzazione del motore e la gestione esplicita della memoria per prevenire la frammentazione, che insieme riducono il tipico sovraccarico associato alla scalabilità automatica di un notevole 97%.
Di conseguenza, Alibaba afferma che Aegaeon può sostenere tassi di richiesta da 2 a 2,5 volte più elevati rispetto a soluzioni alternative, cambiando radicalmente l’economia di servire un modello diversificato catalogo.
Oltre la forza bruta: come lo scaling a livello di token risolve il problema della coda lunga dell’IA
Questa svolta nell’efficienza operativa è distinta dalle innovazioni che riducono i costi di formazione dell’IA. Pur offrendo enormi risparmi, il debutto di Aegaeon non è una ripetizione del momento DeepSeek del gennaio 2025.
Quell’evento ha visto un documento della società cinese DeepSeek suggerire metodi di formazione radicalmente più economici, innescando un’importante svendita di titoli tecnologici che ha colpito particolarmente duramente i produttori di GPU come Nvidia.
Aegaeon affronta invece la sfida altrettanto critica, anche se meno accattivante, dei costi di inferenza: il prezzo effettivo di *esecuzione* di modelli di intelligenza artificiale in produzione.
Risolvere questo problema è una necessità strategica per Alibaba. L’azienda sta perseguendo una strategia IA aggressiva, rilasciando un flusso costante di modelli sia open source che proprietari per attività che vanno dalla codifica al ragionamento multimodale.
Proprio questa strategia crea la”coda lunga”di modelli specializzati che rende Aegaeon così prezioso. Costruendo una piattaforma efficiente per gestirli, Alibaba può rendere economicamente sostenibile il suo vasto mercato dell’intelligenza artificiale.
Un nuovo fronte nella corsa agli armamenti dell’intelligenza artificiale: la spinta a livello di settore per l’efficienza
L’attenzione di Alibaba sulla pianificazione è uno dei tanti fronti in una guerra a livello di settore contro i costi sconcertanti dell’intelligenza artificiale.
Con il prezzo sia della formazione che dell’inferenza. rimanendo un ostacolo fondamentale per un’adozione diffusa, i principali attori stanno attaccando il problema dell’efficienza da diverse angolazioni, creando un panorama diversificato di innovazione in cui ogni parte dello stack IA viene ottimizzata.
Un approccio popolare è quello di riprogettare l’architettura del modello stesso. I recenti modelli Granite 4.0 di IBM, ad esempio, utilizzano un design ibrido che unisce blocchi Transformer con strati Mamba altamente efficienti. Questo metodo ricerca l’efficienza costruendo da zero un motore fondamentalmente più snello, concentrandosi sul carico computazionale principale.
Per Raghu Ganti, responsabile del progetto IBM,”tutto si riconduce alla riduzione del KV della cache… Più throughput, minore latenza, maggiore lunghezza del contesto.”
Un’altra strategia mira all’ottimizzazione della memoria all’interno dell’architettura Transformer dominante. I Neural Attention Memory Models (NAMM) di Sakana AI, con sede a Tokyo, utilizzano algoritmi evolutivi per gestire in modo intelligente la cache KV di un modello, un importante collo di bottiglia della memoria.
Questa tecnica riduce drasticamente l’impronta di memoria per attività che coinvolgono contesti lunghi.
Stanno emergendo anche approcci più radicali che sfidano completamente il paradigma di scalabilità. I ricercatori quest’estate hanno presentato un modello di visione simile al cervello che imita le strutture neurali umane per un’efficienza energetica superiore.
Uno dei suoi coautori, Zejin Lu, ha spiegato il concetto:”Per gli esseri umani, quando rilevi determinati oggetti, hanno una posizione tipica. Sai già che le scarpe sono solitamente in basso, a terra. L’aereo, è in alto.”
Il modello risultante consuma oltre dieci volte meno energia di un’intelligenza artificiale standard, dimostrando che un design elegante a volte può battere la forza bruta.
La pianificazione dinamica di Aegaeon è un approccio potente e complementare a questi altri metodi. Dimostra che l’ingegneria dei sistemi sofisticati può produrre risparmi significativi quanto quelli derivanti dalle revisioni dell’architettura, garantendo che la rivoluzione dell’intelligenza artificiale possa diventare una realtà aziendale sostenibile.