Alibabas Aegaeon-system minskar AI-inferenskostnaderna med 82 % med Smart GPU-schemaläggning

Den kinesiska teknikjätten Alibaba har avslöjat ett kraftfullt nytt system som minskar kostnaden för att driva artificiell intelligens med upp till 82 procent.

Tekniken, som kallas Aegaeon, tar itu med en kritisk utmaning för molnleverantörer: hur man effektivt servar tusentals specialiserade AI-modeller som kunder använder sällan vid forskningen

. href=”https://sigops.org/s/conferences/sosp/2025″target=”_blank”>Symposium on Operating Systems Principles (SOSP) i Seoul—en av de mest prestigefyllda platserna inom datavetenskap—Alibaba beskrev hur Aegaeons smarta schemaläggning samlar dyra GPU-hårdvara mycket mer effektivt än nuvarande GPU-hårdvara.

Under en tremånaders testversion tillät systemet Alibaba Cloud att betjäna en stor samling modeller med bara 213 GPU:er istället för 1 192, drastiskt sänka driftskostnaderna för sin AI-marknad.

Innovationen riktar sig direkt mot det enorma avfall som är inneboende i dagens AI-infrastruktur. Alibabas egna data avslöjade en stark obalans: 17,7 % av dess GPU-flotta var bunden till en”lång svans”av nischmodeller som svarade för bara 1,35 % av de totala kundförfrågningarna.

För molnplattformar som är värd för en växande marknad med olika modeller, representerar denna ineffektivitet en massiv operationell och ohållbar kostnad. utveckling, medförfattare av Alibaba Clouds CTO Zhou Jingren, signalerar en strategisk push på hög nivå för att lösa detta problem.

From Idle GPUs to Smart Scheduling: The Aegaeon Breakthrough

I kärnan ersätter Aegaeon den råa, förfrågningsnivå som används av ett mycket mer omfattande system med mycket mer omfattande”tokle”automatisk skalning”tillvägagångssätt.

Traditionella system måste vänta på att en modell helt slutfört att generera ett svar för en användare. Denna process låser upp GPU:n, vilket skapar allvarlig”head-of-line blockering”, där brådskande förfrågningar om andra modeller fastnar i en kö bakom en långvarig uppgift.

Aegaeons arkitektur är smartare. Den kan pausa en modells process i mitten av generationen, på en token-by-token-basis, för att snabbt hantera en nyligen anländ förfrågan om en annan modell på samma hårdvara.

Denna förebyggande schemaläggning tillåter en enda GPU att flytande betjäna flera, olika modeller – upp till sju per GPU i testning – utan de långa förseningar som bryter mot målsättningen för . href=”https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf”target=”_blank”>forskningspapper, denna finkorniga kontroll är otroligt effektiv. Aegaeon använder en serie fullstack-optimeringar, inklusive komponentåteranvändning för att påskynda motoråterinitiering och explicit minneshantering för att förhindra fragmentering, vilket tillsammans minskar den typiska omkostnaden förknippad med automatisk skalning med anmärkningsvärda 97%.

Som ett resultat hävdar Alibaba att Aegaeon kan upprätthålla alternativa lösningar på 2 till 25 gånger högre förfrågningar än ekonomin. tjänar en mångsidig modell katalog.

Beyond Brute Force: How Token-Level Scalves Solves AI’s Long Tail Problem

Detta genombrott i operativ effektivitet skiljer sig från innovationer som minskar AI-utbildningskostnaderna. Samtidigt som Aegaeons debut levererar enorma besparingar, är inte Aegaeons debut en upprepning av DeepSeek-ögonblicket i januari 2025.

Den händelsen såg en artikel från det kinesiska företaget DeepSeek föreslå radikalt billigare träningsmetoder, vilket utlöser en stor teknisk aktieförsäljning som drabbade GPU-tillverkare som Nvidia särskilt hårt.

rubrik-grabbing, utmaning av slutledning kostnader – priset för att faktiskt *köra* AI-modeller i produktion.

Att lösa detta är en strategisk nödvändighet för Alibaba. Företaget driver en aggressiv AI-strategi och släpper en konstant ström av både öppen källkod och proprietära modeller för uppgifter som sträcker sig från kodning till multimodala resonemang.

Just den här strategin skapar den”långa svansen”av specialiserade modeller som gör Aegaeon så värdefullt. Genom att bygga en effektiv plattform för att driva dem kan Alibaba göra sin vidsträckta AI-marknad ekonomiskt lönsam.

A New Front in the AI Arms Race: The Industry-Wide Push for Efficiency

Alibabas fokus på schemaläggning är en av flera fronter i en branschövergripande priskrig.

av både träning och slutledning som förblir en viktig barriär för utbredd användning, angriper stora aktörer effektivitetsproblemet från olika vinklar och skapar ett mångsidigt landskap av innovation där varje del av AI-stacken optimeras.

Ett populärt tillvägagångssätt är att designa om själva modellarkitekturen. IBMs senaste Granite 4.0-modeller använder till exempel en hybriddesign som blandar transformatorblock med högeffektiva Mamba-lager. Den här metoden strävar efter effektivitet genom att bygga en i grunden tunnare motor från grunden, inriktad på kärnberäkningsbelastningen.

För IBM:s projektledare Raghu Ganti,”kommer allt tillbaka till KV-cache-reduktionen… Mer genomströmning, lägre latens, längre kontextlängd.”

En annan strategi är inriktad på minnesoptimering inom den dominerande transformatorarkitekturen. Tokyo-baserade Sakana AI:s Neural Attention Memory Models (NAMM) använder evolutionära algoritmer för att på ett intelligent sätt hantera en modells KV-cache, en stor minnesflaskhals.

Denna teknik minskar dramatiskt minnesfotavtrycket för uppgifter som involverar långa sammanhang.

Mer radikala tillvägagångssätt dyker också upp den paradiga utmaningen. Forskare presenterade i somras en hjärnliknande synmodell som efterliknar mänskliga neurala strukturer för överlägsen energieffektivitet.

En av dess medförfattare, Zejin Lu, förklarade konceptet:”För människor, när du upptäcker vissa föremål, har de en typisk position. Du vet redan att skorna vanligtvis är längst ner, på marken. tio gånger mindre energi än en vanlig AI, bevisar elegant design kan ibland slå brute force.

Aegaeons dynamiska schemaläggning är ett kraftfullt, kompletterande tillvägagångssätt till dessa andra metoder. Det bevisar att sofistikerad systemteknik kan ge lika betydande besparingar som de från arkitektoniska översyner, vilket säkerställer att AI-revolutionen kan bli en hållbar affärsverklighet.

Alibabas Aegaeon-system minskar AI-inferenskostnaderna med 82 % med Smart GPU-schemaläggning

Published by All Things Windows on October 21, 2025

From Idle GPUs to Smart Scheduling: The Aegaeon Breakthrough

Beyond Brute Force: How Token-Level Scalves Solves AI’s Long Tail Problem

A New Front in the AI Arms Race: The Industry-Wide Push for Efficiency

IT Info

YouTube distribuerar AI-liknandeverktyg för kreatörer, efter OpenAI:s Sora Deepfake-kontrovers

IT Info

OpenAI lanserar webbläsaren ChatGPT Atlas AI för att ta emot Google Chrome

IT Info

Google förnyar AI Studio med”Vibe Coding”-upplevelse, banar väg för Gemini 3.0

Alibabas Aegaeon-system minskar AI-inferenskostnaderna med 82 % med Smart GPU-schemaläggning

Published by All Things Windows on October 21, 2025

From Idle GPUs to Smart Scheduling: The Aegaeon Breakthrough

Beyond Brute Force: How Token-Level Scalves Solves AI’s Long Tail Problem

A New Front in the AI Arms Race: The Industry-Wide Push for Efficiency

Related Posts

IT Info

YouTube distribuerar AI-liknandeverktyg för kreatörer, efter OpenAI:s Sora Deepfake-kontrovers

IT Info

OpenAI lanserar webbläsaren ChatGPT Atlas AI för att ta emot Google Chrome

IT Info

Google förnyar AI Studio med”Vibe Coding”-upplevelse, banar väg för Gemini 3.0