Az Alibaba Aegaeon rendszere 82%-kal csökkenti az AI következtetések költségeit az intelligens GPU ütemezéssel

A kínai technológiai óriás, az Alibaba bemutatott egy nagy teljesítményű új rendszert, amely akár 82 százalékkal csökkenti a mesterséges intelligencia üzemeltetésének költségeit.

Az Aegaeon nevű technológia a felhőszolgáltatók számára kritikus kihívást jelent: hogyan lehet hatékonyan kiszolgálni több ezer speciális mesterséges intelligencia modellt, amelyeket az ügyfelek ritkán használnak.

In thea. href=”https://sigops.org/s/conferences/sosp/2025″target=”_blank”>Operációs rendszerek alapelvei (SOSP) Szimpózium Szöulban – a számítástechnika egyik legrangosabb helyszínén – az Alibaba részletesen bemutatta, hogy az Aegaeon intelligens ütemezése miként egyesíti a drága GPU-hardvereket a jelenleginél.

Egy három hónapos próbaidőszak alatt a rendszer lehetővé tette, hogy az Alibaba Cloud modellek hatalmas gyűjteményét szolgálja ki 1192 helyett mindössze 213 GPU-val, drasztikusan csökkenti a mesterségesintelligencia-piac működési költségeit.

Az innováció közvetlenül a mai mesterségesintelligencia-infrastruktúrában rejlő hatalmas pazarlást célozza meg. Az Alibaba saját adatai éles egyensúlyhiányról árulkodtak: GPU-flottájának 17,7%-a a résmodellek „hosszú farkát” kötötte le, ami az összes ügyféligénynek mindössze 1,35%-át tette ki.

A különféle modellek növekvő piacának otthont adó felhőplatformok esetében ez a hatástalanság hatalmas működési és költséges költséget jelent. fejlesztés, társszerzője Az Alibaba Cloud technológiai igazgatója, Zhou Jingren magas szintű stratégiai lökést jelez a probléma megoldására.

Az üresjárati GPU-któl az intelligens ütemezésig: az Aegaeon áttörése

Lényegében az Aegaeon a nyers, kérésszintű rendszereket egy sokkal részletesebb skálázással helyettesíti. megközelítés.

A hagyományos rendszereknek meg kell várniuk, amíg a modell teljesen befejezi a válasz generálását egy felhasználó számára. Ez a folyamat leblokkolja a GPU-t, és súlyos „vonalbeli blokkolást” hoz létre, ahol a más modellekre vonatkozó sürgős kérések egy hosszan tartó feladat mögött elakadnak.

Az Aegaeon architektúrája okosabb. Leállíthatja a modell folyamatát a generáció közepén, tokenenkénti alapon, hogy gyorsan kezelje az újonnan érkezett kéréseket egy másik modellre ugyanazon a hardveren.

Ez a megelőző ütemezés lehetővé teszi, hogy egyetlen GPU folyamatosan több, egymástól eltérő modellt szolgáltasson ki – a tesztelés során GPU-nként akár hetet is – anélkül, hogy a szolgáltatási szintet megsértené a célokat. href=”https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf”target=”_blank”>kutatási cikk szerint ez a finomszemcsés vezérlés hihetetlenül hatékony. Az Aegaeon egy sor full-stack optimalizálást alkalmaz, beleértve a komponensek újrahasználatát a motor újrainicializálásának felgyorsítására és az explicit memóriakezelést a töredezettség megelőzése érdekében, amelyek együttesen figyelemreméltó 97%-kal csökkentik az automatikus skálázással járó tipikus többletterhelést.

Ennek eredményeként az Alibaba azt állítja, hogy az Aegaeon alternatív megoldásokat képes elviselni, 2-2-5-ször nagyobb gazdasági igény esetén. változatos modell katalógusban.

Beyond Brute Force: Hogyan oldja meg a token-szintű skálázás az AI Long Tail problémáját

A működési hatékonyság terén ez az áttörés különbözik az AI képzési költségeit csökkentő innovációktól. Noha óriási megtakarításokat hozott, az Aegaeon debütálása nem a 2025. januári DeepSeek pillanatának megismétlése.

Ezen az eseményen a kínai DeepSeek cég egy lapja radikálisan olcsóbb képzési módszereket javasolt, ami jelentős technológiai részvényeladást váltott ki, amely különösen keményen sújtotta a GPU-gyártókat, például az Nvidiát.

Ehelyett kevésbé kritikus, ha a, gr. következtetési költségek kihívása – az a ténylegesen *futó* AI modellek gyártási ára.

Ennek megoldása stratégiai szükséglet az Alibaba számára. A vállalat agresszív mesterségesintelligencia-stratégiát követ, amely mind a nyílt forráskódú, mind a szabadalmaztatott modellek állandó folyamát bocsátja ki a kódolástól a multimodális gondolkodásig terjedő feladatokhoz.

Ez a stratégia hozza létre a speciális modellek „hosszú farkát”, amely az Aegaeont olyan értékessé teszi. A működtetésükhöz hatékony platform kiépítésével az Alibaba gazdaságilag életképessé teheti szerteágazó mesterségesintelligencia-piacát.

Új front a mesterséges intelligencia fegyverkezési versenyében: az egész iparágra kiterjedő erőfeszítés a hatékonyságért

Az Alibaba az ütemezésre összpontosít, és az egyike annak a számos frontnak az AI-t átfogó háborúban.

a képzés és a következtetés ára is megmarad A széles körben elterjedt elterjedtség egyik kulcsfontosságú akadálya, a főbb szereplők különböző oldalról támadják a hatékonysági problémát, és olyan változatos innovációs környezetet hoznak létre, ahol az AI-verem minden részét optimalizálják.

Az egyik népszerű megközelítés magának a modellarchitektúrának az újratervezése. Az IBM legújabb Granite 4.0 modelljei például hibrid kialakítást alkalmaznak, amely a Transformer blokkokat és a rendkívül hatékony Mamba rétegeket keveri. Ez a módszer a hatékonyságra törekszik egy alapvetően karcsúbb motor felépítésével az alapoktól kezdve, az alapvető számítási terhelést megcélozva.

Az IBM projektvezetője, Raghu Ganti szerint „minden a KV gyorsítótár csökkentésére tér vissza… Nagyobb átviteli sebesség, alacsonyabb késleltetés, hosszabb kontextushossz.”

Egy másik stratégia a memóriaoptimalizálást célozza meg a domináns Transformer architektúrán belül. A tokiói székhelyű Sakana AI neurális figyelemmemóriamodellei (NAMM) evolúciós algoritmusokat használnak a modell KV-gyorsítótárának intelligens kezelésére, ami a memória jelentős szűk keresztmetszete.

Ez a technika drámaian csökkenti a memória lábnyomát a hosszú kontextusokat érintő feladatoknál.

A radikálisabb, paradigmálisabb megközelítések is kihívást jelentenek. A kutatók ezen a nyáron bemutattak egy agyszerű látásmodellt, amely az emberi neurális struktúrákat utánozza a kiváló energiahatékonyság érdekében.

Egyik társszerzője, Zejin Lu így magyarázta a koncepciót: „Az emberek számára, amikor bizonyos tárgyakat észlelnek, azok tipikus helyzetük van. Már tudja, hogy a cipők általában alul vannak, a földön. A repülőgép kevesebb, mint tízszer.” energia, mint egy szabványos mesterséges intelligencia, így az elegáns design olykor felülmúlja a nyers erőt.

Az Aegaeon dinamikus ütemezése erőteljes, kiegészítő megközelítés ezekhez a többi módszerhez. Bebizonyítja, hogy a kifinomult rendszertervezés ugyanolyan jelentős megtakarításokat eredményezhet, mint az építészeti felújítások, így az AI forradalom fenntartható üzleti valósággá válhat.

Az Alibaba Aegaeon rendszere 82%-kal csökkenti az AI következtetések költségeit az intelligens GPU ütemezéssel

Published by All Things Windows on October 21, 2025

Az üresjárati GPU-któl az intelligens ütemezésig: az Aegaeon áttörése

Beyond Brute Force: Hogyan oldja meg a token-szintű skálázás az AI Long Tail problémáját

Új front a mesterséges intelligencia fegyverkezési versenyében: az egész iparágra kiterjedő erőfeszítés a hatékonyságért

IT Info

A YouTube bevezeti az AI-szerűség eszközét az alkotók számára, az OpenAI Sora Deepfake vitáját követően

IT Info

Az OpenAI elindítja a ChatGPT Atlas AI-böngészőt a Google Chrome-on való alkalmazáshoz

IT Info

A Google megújítja az AI Stúdiót „Vibe Coding” tapasztalattal, utat nyit a Gemini 3.0 számára

Az Alibaba Aegaeon rendszere 82%-kal csökkenti az AI következtetések költségeit az intelligens GPU ütemezéssel

Published by All Things Windows on October 21, 2025

Az üresjárati GPU-któl az intelligens ütemezésig: az Aegaeon áttörése

Beyond Brute Force: Hogyan oldja meg a token-szintű skálázás az AI Long Tail problémáját

Új front a mesterséges intelligencia fegyverkezési versenyében: az egész iparágra kiterjedő erőfeszítés a hatékonyságért

Related Posts

IT Info

A YouTube bevezeti az AI-szerűség eszközét az alkotók számára, az OpenAI Sora Deepfake vitáját követően

IT Info

Az OpenAI elindítja a ChatGPT Atlas AI-böngészőt a Google Chrome-on való alkalmazáshoz

IT Info

A Google megújítja az AI Stúdiót „Vibe Coding” tapasztalattal, utat nyit a Gemini 3.0 számára