A kínai technológiai óriás, az Alibaba bemutatott egy nagy teljesítményű új rendszert, amely akár 82 százalékkal csökkenti a mesterséges intelligencia üzemeltetésének költségeit.
Az Aegaeon nevű technológia a felhőszolgáltatók számára kritikus kihívást jelent: hogyan lehet hatékonyan kiszolgálni több ezer speciális mesterséges intelligencia modellt, amelyeket az ügyfelek ritkán használnak.
In thea. href=”https://sigops.org/s/conferences/sosp/2025″target=”_blank”>Operációs rendszerek alapelvei (SOSP) Szimpózium Szöulban – a számítástechnika egyik legrangosabb helyszínén – az Alibaba részletesen bemutatta, hogy az Aegaeon intelligens ütemezése miként egyesíti a drága GPU-hardvereket a jelenleginél.
Egy három hónapos próbaidőszak alatt a rendszer lehetővé tette, hogy az Alibaba Cloud modellek hatalmas gyűjteményét szolgálja ki 1192 helyett mindössze 213 GPU-val, drasztikusan csökkenti a mesterségesintelligencia-piac működési költségeit.
Az innováció közvetlenül a mai mesterségesintelligencia-infrastruktúrában rejlő hatalmas pazarlást célozza meg. Az Alibaba saját adatai éles egyensúlyhiányról árulkodtak: GPU-flottájának 17,7%-a a résmodellek „hosszú farkát” kötötte le, ami az összes ügyféligénynek mindössze 1,35%-át tette ki.
A különféle modellek növekvő piacának otthont adó felhőplatformok esetében ez a hatástalanság hatalmas működési és költséges költséget jelent. fejlesztés, társszerzője Az Alibaba Cloud technológiai igazgatója, Zhou Jingren magas szintű stratégiai lökést jelez a probléma megoldására.
Az üresjárati GPU-któl az intelligens ütemezésig: az Aegaeon áttörése
Lényegében az Aegaeon a nyers, kérésszintű rendszereket egy sokkal részletesebb skálázással helyettesíti. megközelítés.
A hagyományos rendszereknek meg kell várniuk, amíg a modell teljesen befejezi a válasz generálását egy felhasználó számára. Ez a folyamat leblokkolja a GPU-t, és súlyos „vonalbeli blokkolást” hoz létre, ahol a más modellekre vonatkozó sürgős kérések egy hosszan tartó feladat mögött elakadnak.
Az Aegaeon architektúrája okosabb. Leállíthatja a modell folyamatát a generáció közepén, tokenenkénti alapon, hogy gyorsan kezelje az újonnan érkezett kéréseket egy másik modellre ugyanazon a hardveren.
Ez a megelőző ütemezés lehetővé teszi, hogy egyetlen GPU folyamatosan több, egymástól eltérő modellt szolgáltasson ki – a tesztelés során GPU-nként akár hetet is – anélkül, hogy a szolgáltatási szintet megsértené a
Ennek eredményeként az Alibaba azt állítja, hogy az Aegaeon alternatív megoldásokat képes elviselni, 2-2-5-ször nagyobb gazdasági igény esetén. változatos modell katalógusban.
Beyond Brute Force: Hogyan oldja meg a token-szintű skálázás az AI Long Tail problémáját
A működési hatékonyság terén ez az áttörés különbözik az AI képzési költségeit csökkentő innovációktól. Noha óriási megtakarításokat hozott, az Aegaeon debütálása nem a 2025. januári DeepSeek pillanatának megismétlése.
Ezen az eseményen a kínai DeepSeek cég egy lapja radikálisan olcsóbb képzési módszereket javasolt, ami jelentős technológiai részvényeladást váltott ki, amely különösen keményen sújtotta a GPU-gyártókat, például az Nvidiát.
Ehelyett kevésbé kritikus, ha a, gr. következtetési költségek kihívása – az a ténylegesen *futó* AI modellek gyártási ára.
Ennek megoldása stratégiai szükséglet az Alibaba számára. A vállalat agresszív mesterségesintelligencia-stratégiát követ, amely mind a nyílt forráskódú, mind a szabadalmaztatott modellek állandó folyamát bocsátja ki a kódolástól a multimodális gondolkodásig terjedő feladatokhoz.
Ez a stratégia hozza létre a speciális modellek „hosszú farkát”, amely az Aegaeont olyan értékessé teszi. A működtetésükhöz hatékony platform kiépítésével az Alibaba gazdaságilag életképessé teheti szerteágazó mesterségesintelligencia-piacát.
Új front a mesterséges intelligencia fegyverkezési versenyében: az egész iparágra kiterjedő erőfeszítés a hatékonyságért
Az Alibaba az ütemezésre összpontosít, és az egyike annak a számos frontnak az AI-t átfogó háborúban.
a képzés és a következtetés ára is megmarad A széles körben elterjedt elterjedtség egyik kulcsfontosságú akadálya, a főbb szereplők különböző oldalról támadják a hatékonysági problémát, és olyan változatos innovációs környezetet hoznak létre, ahol az AI-verem minden részét optimalizálják.
Az egyik népszerű megközelítés magának a modellarchitektúrának az újratervezése. Az IBM legújabb Granite 4.0 modelljei például hibrid kialakítást alkalmaznak, amely a Transformer blokkokat és a rendkívül hatékony Mamba rétegeket keveri. Ez a módszer a hatékonyságra törekszik egy alapvetően karcsúbb motor felépítésével az alapoktól kezdve, az alapvető számítási terhelést megcélozva.
Az IBM projektvezetője, Raghu Ganti szerint „minden a KV gyorsítótár csökkentésére tér vissza… Nagyobb átviteli sebesség, alacsonyabb késleltetés, hosszabb kontextushossz.”
Egy másik stratégia a memóriaoptimalizálást célozza meg a domináns Transformer architektúrán belül. A tokiói székhelyű Sakana AI neurális figyelemmemóriamodellei (NAMM) evolúciós algoritmusokat használnak a modell KV-gyorsítótárának intelligens kezelésére, ami a memória jelentős szűk keresztmetszete.
Ez a technika drámaian csökkenti a memória lábnyomát a hosszú kontextusokat érintő feladatoknál.
A radikálisabb, paradigmálisabb megközelítések is kihívást jelentenek. A kutatók ezen a nyáron bemutattak egy agyszerű látásmodellt, amely az emberi neurális struktúrákat utánozza a kiváló energiahatékonyság érdekében.
Egyik társszerzője, Zejin Lu így magyarázta a koncepciót: „Az emberek számára, amikor bizonyos tárgyakat észlelnek, azok tipikus helyzetük van. Már tudja, hogy a cipők általában alul vannak, a földön. A repülőgép kevesebb, mint tízszer.” energia, mint egy szabványos mesterséges intelligencia, így az elegáns design olykor felülmúlja a nyers erőt.
Az Aegaeon dinamikus ütemezése erőteljes, kiegészítő megközelítés ezekhez a többi módszerhez. Bebizonyítja, hogy a kifinomult rendszertervezés ugyanolyan jelentős megtakarításokat eredményezhet, mint az építészeti felújítások, így az AI forradalom fenntartható üzleti valósággá válhat.