Den kinesiske teknologigiganten Alibaba har avslørt et kraftig nytt system som reduserer kostnadene ved å kjøre kunstig intelligens med opptil 82 prosent.
Teknologien, kalt Aegaeon, adresserer en kritisk utfordring for skyleverandører: hvordan effektivt betjene tusenvis av spesialiserte AI-modeller som kunder bruker sjeldent.
In
. href=”https://sigops.org/s/conferences/sosp/2025″target=”_blank”>Symposium on Operating Systems Principles (SOSP) i Seoul—en av de mest prestisjefylte arenaene innen informatikk—Alibaba beskrev hvordan Aegaeons smarte planlegging samler dyre GPU-maskinvare langt mer effektivt enn nåværende maskinvaremetoder.
I løpet av en tremåneders prøveperiode tillot systemet Alibaba Cloud å betjene en enorm samling av modeller ved bruk av bare 213 GPUer i stedet for 1192, drastisk kutte driftskostnadene for AI-markedsplassen.
Innovasjonen retter seg direkte mot det enorme avfallet som er iboende i dagens AI-infrastruktur. Alibabas egne data avslørte en sterk ubalanse: 17,7 % av GPU-flåten var bundet opp til å betjene en «lang hale» av nisjemodeller som utgjorde bare 1,35 % av totale kundeforespørsler.
For skyplattformer som er vert for en voksende markedsplass av forskjellige modeller, representerer denne ineffektiviteten en massiv, stor og uholdbar driftskostnad. utvikling, medforfatter av Alibaba Clouds CTO Zhou Jingren, signaliserer et strategisk fremstøt på høyt nivå for å løse dette problemet.
From Idle GPUs to Smart Scheduling: The Aegaeon Breakthrough
I kjernen erstatter Aegaeon de mange råoljene som brukes med mye mer avanserte systemer med mer omfattende systemer.”token-nivå auto-scaling”-tilnærming.
Tradisjonelle systemer må vente på at en modell er ferdig med å generere et svar for én bruker. Denne prosessen låser GPUen, og skaper alvorlig «head-of-line-blokkering», der presserende forespørsler om andre modeller blir sittende fast i køen bak en langvarig oppgave.
Aegaeons arkitektur er smartere. Den kan sette en modells prosess på pause midt i generasjonen, på en token-by-token-basis, for raskt å håndtere en nylig ankommet forespørsel om en annen modell på samme maskinvare.
Denne forebyggende planleggingen gjør at en enkelt GPU kan betjene flere, forskjellige modeller – opp til syv per GPU i testing – uten de lange forsinkelsene som bryter med
-tjenesten
. href=”https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf”target=”_blank”>forskningspapir, denne finkornede kontrollen er utrolig effektiv. Aegaeon bruker en rekke fullstack-optimaliseringer, inkludert gjenbruk av komponenter for å øke hastigheten på motorreinitialisering og eksplisitt minneadministrasjon for å forhindre fragmentering, som til sammen reduserer den typiske overheaden knyttet til automatisk skalering med bemerkelsesverdige 97 %.
Som et resultat hevder Alibaba at Aegaeon kan opprettholde alternative løsninger på 2 til 25 ganger høyere forespørsler enn de økonomiske prisene. serverer en mangfoldig modell katalog.
Beyond Brute Force: How Token-Level Scalves Solves AI’s Long Tail Problem
Dette gjennombruddet i operasjonell effektivitet er forskjellig fra innovasjoner som reduserer AI-opplæringskostnadene. Selv om Aegaeons debut leverer enorme besparelser, er ikke debuten en gjentakelse av DeepSeek-øyeblikket i januar 2025.
Denne hendelsen så en artikkel fra det kinesiske firmaet DeepSeek foreslå radikalt billigere treningsmetoder, noe som utløste et stort tech-aksjesalg som rammet GPU-produsenter som Nvidia spesielt hardt,
overskrift-grabbing, utfordring av slutning kostnader – prisen for å faktisk *kjøre* AI-modeller i produksjon.
Å løse dette er en strategisk nødvendighet for Alibaba. Selskapet følger en aggressiv AI-strategi, og frigjør en konstant strøm av både åpen kildekode og proprietære modeller for oppgaver som spenner fra koding til multimodal resonnement.
Akkurat denne strategien skaper den”lange halen”av spesialiserte modeller som gjør Aegaeon så verdifull. Ved å bygge en effektiv plattform for å drive dem, kan Alibaba gjøre sin vidstrakte AI-markedsplass økonomisk levedyktig.
A New Front in the AI Arms Race: The Industry-Wide Push for Efficiency
Alibabas fokus på planlegging er en av flere fronter i kostnadskrigen for AI
. av både trening og slutning som gjenstår en nøkkelbarriere for utbredt bruk, angriper store aktører effektivitetsproblemet fra forskjellige vinkler, og skaper et mangfoldig landskap av innovasjon der hver del av AI-stabelen blir optimalisert.
En populær tilnærming er å redesigne selve modellarkitekturen. IBMs nylige Granite 4.0-modeller bruker for eksempel en hybriddesign som blander transformatorblokker med svært effektive Mamba-lag. Denne metoden søker effektivitet ved å bygge en fundamentalt slankere motor fra grunnen av, målrettet mot kjerneberegningsbelastningen.
For IBMs prosjektleder Raghu Ganti,”kommer alt tilbake til KV-bufferreduksjonen… Mer gjennomstrømning, lavere ventetid, lengre kontekstlengde.”
En annen strategi er rettet mot minneoptimalisering innenfor den dominerende transformatorarkitekturen. Tokyo-baserte Sakana AIs Neural Attention Memory Models (NAMMs) bruker evolusjonære algoritmer for intelligent å administrere en modells KV-cache, en stor minneflaskehals.
Denne teknikken reduserer hukommelsesfotavtrykket dramatisk for oppgaver som involverer lange kontekster.
Mer radikale tilnærminger er også i ferd med å dukke opp. Forskere avduket i sommer en hjernelignende synsmodell som etterligner menneskelige nevrale strukturer for overlegen energieffektivitet.
En av medforfatterne, Zejin Lu, forklarte konseptet: «For mennesker, når du oppdager visse objekter, har de en typisk posisjon. Du vet allerede at skoene vanligvis er nederst, på bakken. ti ganger mindre energi enn en standard AI, og elegant design kan noen ganger slå brute force.
Aegaeons dynamiske planlegging er en kraftig, komplementær tilnærming til disse andre metodene. Det beviser at sofistikert systemutvikling kan gi like betydelige besparelser som de fra arkitektoniske overhalinger, noe som sikrer at AI-revolusjonen kan bli en bærekraftig forretningsrealitet.