Alibaba’s Aegaeon-systeem verlaagt de AI-inferentiekosten met 82% dankzij slimme GPU-planning

De Chinese technologiegigant Alibaba heeft een krachtig nieuw systeem onthuld dat de kosten van het gebruik van kunstmatige intelligentie met maar liefst 82 procent verlaagt.

De technologie, genaamd Aegaeon, pakt een cruciale uitdaging aan voor cloudproviders: hoe je op efficiënte wijze duizenden gespecialiseerde AI-modellen kunt bedienen die klanten niet vaak gebruiken.

In onderzoek gepresenteerd op de Symposium on Operating Systems Principles (SOSP) in Seoul, een van de meest prestigieuze locaties op het gebied van de computerwetenschappen, in Alibaba werd gedetailleerd beschreven hoe de slimme planning van Aegaeon dure GPU-hardware veel effectiever bundelt dan de huidige methoden.

Tijdens een proefperiode van drie maanden stelde het systeem Alibaba Cloud in staat een enorme verzameling modellen te bedienen met slechts 213 GPU’s in plaats van 1.192, De operationele kosten voor de AI-marktplaats drastisch verlagen.

De innovatie richt zich rechtstreeks op de immense verspilling die inherent is aan de huidige AI-infrastructuur. Alibaba’s eigen gegevens brachten een grote onevenwichtigheid aan het licht: 17,7% van zijn GPU-vloot was bestemd voor het bedienen van een’lange staart’van nichemodellen die slechts 1,35% van de totale klantverzoeken voor hun rekening namen.

Voor cloudplatforms die een groeiende marktplaats van diverse modellen hosten, vertegenwoordigt deze inefficiëntie enorme en onhoudbare operationele kosten.

De ontwikkeling van Aegaeon, mede geschreven door De CTO van Alibaba Cloud, Zhou Jingren, signaleert een strategische impuls op hoog niveau om dit probleem op te lossen.

Van inactieve GPU’s tot slimme planning: de doorbraak van Aegaeon

In de kern vervangt Aegaeon de ruwe schaling op verzoekniveau die door veel systemen wordt gebruikt door een veel gedetailleerder”automatisch schalen op tokenniveau”aanpak.

Traditionele systemen moeten wachten tot een model volledig klaar is met het genereren van een antwoord voor één gebruiker. Dit proces blokkeert de GPU, waardoor ernstige ‘head-of-line blokkering’ ontstaat, waarbij urgente verzoeken voor andere modellen in de wachtrij achter een langlopende taak blijven hangen.

De architectuur van Aegaeon is slimmer. Het kan het proces van een model halverwege de generatie pauzeren, op een token-voor-token basis, om snel een nieuw binnengekomen verzoek voor een ander model op dezelfde hardware af te handelen.

Deze preventieve planning maakt het mogelijk dat een enkele GPU meerdere, ongelijksoortige modellen vloeiend kan bedienen (tot zeven per GPU tijdens het testen) zonder de lange vertragingen die de doelstellingen op serviceniveau schenden.

Volgens de onderzoekspaper is deze fijnmazige controle ongelooflijk effectief. Aegaeon maakt gebruik van een reeks full-stack-optimalisaties, waaronder hergebruik van componenten om het opnieuw initialiseren van de engine te versnellen en expliciet geheugenbeheer om fragmentatie te voorkomen, die samen de typische overhead die gepaard gaat met automatisch schalen met maar liefst 97% verminderen.

Als gevolg hiervan beweert Alibaba dat Aegaeon 2 tot 2,5 keer hogere verzoekpercentages kan verwerken dan alternatieve oplossingen, waardoor de economie van het bedienen van een divers model fundamenteel verandert. catalogus.

Voorbij brute kracht: hoe schaling op tokenniveau het long tail-probleem van AI oplost

Deze doorbraak in operationele efficiëntie onderscheidt zich van innovaties die de kosten van AI-training verlagen. Hoewel het enorme besparingen oplevert, is het debuut van Aegaeon geen herhaling van het DeepSeek-moment in januari 2025.

Bij die gebeurtenis suggereerde een artikel van het Chinese bedrijf DeepSeek radicaal goedkopere trainingsmethoden, wat leidde tot een grote uitverkoop van technologieaandelen die GPU-makers als Nvidia bijzonder zwaar trof.

In plaats daarvan pakt Aegaeon de even cruciale, zij het minder opvallende, uitdaging van de inferentiekosten aan: de prijs van het daadwerkelijk *uitvoeren* van AI-modellen in productie.

Dit oplossen is een strategische noodzaak voor Alibaba. Het bedrijf volgt een agressieve AI-strategie, waarbij een constante stroom van zowel open-source als eigen modellen vrijkomt voor taken variërend van coderen tot multimodaal redeneren.

Deze strategie creëert de ‘lange staart’ van gespecialiseerde modellen die Aegaeon zo waardevol maakt. Door een efficiënt platform te bouwen om ze uit te voeren, kan Alibaba zijn uitgestrekte AI-markt economisch levensvatbaar maken.

Een nieuw front in de AI-wapenwedloop: de sectorbrede drang naar efficiëntie

Alibaba’s focus op planning is een van de vele fronten in een sectorbrede oorlog tegen de duizelingwekkende kosten van AI.

Met de prijs van zowel training als gevolgtrekkingen Terwijl het een belangrijke barrière blijft voor wijdverbreide adoptie, pakken grote spelers het efficiëntieprobleem vanuit verschillende invalshoeken aan, waardoor een divers landschap van innovatie ontstaat waarin elk onderdeel van de AI-stack wordt geoptimaliseerd.

Een populaire benadering is het opnieuw ontwerpen van de modelarchitectuur zelf. De recente Granite 4.0-modellen van IBM gebruiken bijvoorbeeld een hybride ontwerp waarin Transformer-blokken worden gecombineerd met zeer efficiënte Mamba-lagen. Deze methode streeft naar efficiëntie door vanaf de basis een fundamenteel slankere engine te bouwen, die zich richt op de kern van de rekenbelasting.

Voor IBM’s projectleider Raghu Ganti komt”alles terug op de reductie van de KV-cache… Meer doorvoer, lagere latentie, langere contextlengte.”

Een andere strategie richt zich op geheugenoptimalisatie binnen de dominante Transformer-architectuur. De Neural Attention Memory Models (NAMM’s) van Sakana AI uit Tokio gebruiken evolutionaire algoritmen om op intelligente wijze de KV-cache van een model te beheren, een groot geheugenknelpunt.

Deze techniek verkleint dramatisch de geheugenvoetafdruk voor taken met lange contexten.

Er zijn ook radicalere benaderingen in opkomst die het schaalparadigma volledig uitdagen. Onderzoekers hebben deze zomer een hersenachtig visiemodel onthuld dat menselijke neurale structuren nabootst voor superieure energie-efficiëntie.

Een van de co-auteurs, Zejin Lu, legde het concept uit:”Voor mensen geldt dat wanneer je bepaalde objecten detecteert, ze een typische positie innemen. Je weet al dat de schoenen zich meestal onderaan, op de grond, bevinden. Het vliegtuig staat bovenaan.”

Het resulterende model verbruikt meer dan tien schoenen. keer minder energie dan een standaard AI, wat bewijst dat elegant ontwerp soms brute kracht kan verslaan.

De dynamische planning van Aegaeon is een krachtige, complementaire benadering van deze andere methoden. Het bewijst dat geavanceerde systeemtechniek besparingen kan opleveren die net zo groot zijn als die van architectonische revisies, waardoor de AI-revolutie een duurzame zakelijke realiteit kan worden.

Alibaba’s Aegaeon-systeem verlaagt de AI-inferentiekosten met 82% dankzij slimme GPU-planning

Published by All Things Windows on October 21, 2025

Van inactieve GPU’s tot slimme planning: de doorbraak van Aegaeon

Voorbij brute kracht: hoe schaling op tokenniveau het long tail-probleem van AI oplost

Een nieuw front in de AI-wapenwedloop: de sectorbrede drang naar efficiëntie

IT Info

YouTube implementeert AI Likeness Tool voor makers, naar aanleiding van de Sora Deepfake-controverse van OpenAI

IT Info

OpenAI lanceert ChatGPT Atlas AI-browser voor Google Chrome

IT Info

Google vernieuwt AI Studio met ‘Vibe Coding’-ervaring, wat de weg vrijmaakt voor Gemini 3.0

Alibaba’s Aegaeon-systeem verlaagt de AI-inferentiekosten met 82% dankzij slimme GPU-planning

Published by All Things Windows on October 21, 2025

Van inactieve GPU’s tot slimme planning: de doorbraak van Aegaeon

Voorbij brute kracht: hoe schaling op tokenniveau het long tail-probleem van AI oplost

Een nieuw front in de AI-wapenwedloop: de sectorbrede drang naar efficiëntie

Related Posts

IT Info

YouTube implementeert AI Likeness Tool voor makers, naar aanleiding van de Sora Deepfake-controverse van OpenAI

IT Info

OpenAI lanceert ChatGPT Atlas AI-browser voor Google Chrome

IT Info

Google vernieuwt AI Studio met ‘Vibe Coding’-ervaring, wat de weg vrijmaakt voor Gemini 3.0