Kiinalainen teknologiajätti Alibaba on paljastanut tehokkaan uuden järjestelmän, joka leikkaa tekoälyn käyttökustannuksia jopa 82 prosenttia.
Aegaeon-niminen teknologia vastaa pilvipalveluntarjoajien kriittiseen haasteeseen: kuinka palvella tehokkaasti tuhansia erikoistuneita tekoälymalleja, joita asiakkaat käyttävät harvoin.
A:ssa esiteltiin. href=”https://sigops.org/s/conferences/sosp/2025″target=”_blank”>Symposium on Operating Systems Principles (SOSP) Soulissa – yksi arvostetuimmista tietojenkäsittelytieteen paikoista – Alibaba kertoi yksityiskohtaisesti, kuinka Aegaeonin älykäs aikataulutus yhdistää kalliita GPU-laitteita.
Kolmen kuukauden kokeilujakson aikana järjestelmä antoi Alibaba Cloudille mahdollisuuden palvella laajaa mallistoa käyttämällä vain 213 GPU:ta 1 192:n sijaan, leikkasi tekoälymarkkinoidensa toimintakustannuksia rajusti.
Innovaatio kohdistuu suoraan nykypäivän tekoälyinfrastruktuurin valtavaan hukkaan. Alibaban omat tiedot paljastivat jyrkän epätasapainon: 17,7 % sen grafiikkasuorittimesta oli sidottu”pitkän pyrstön”palvelemiseen kapeita malleja, mikä vastasi vain 1,35 % asiakkaiden kaikista pyynnöistä.
Pilvialustoille, jotka isännöivät kasvavaa eri mallien markkinapaikkaa, tämä tehottomuus merkitsee
suuren toiminnan ja kustannusten kustannuksia. kehitystyö, mukana kirjoittamassa Alibaba Cloudin teknologiajohtaja Zhou Jingren, viestii korkean tason strategisesta ponnistelusta tämän ongelman ratkaisemiseksi.
Käytössä olevista GPU:ista älykkääseen ajoitukseen: Aegaeonin läpimurto
Aegaeon korvaa ytimenään monien pyyntötason järjestelmien käyttämät raa’at, pyyntötason skaalausjärjestelmät. automaattinen skaalaus.”Tämä prosessi lukitsee grafiikkasuorittimen luoden vakavan”head-of-line-eston”, jossa muita malleja koskevat kiireelliset pyynnöt juuttuvat jonoon pitkään jatkuvan tehtävän takana.
Aegaeonin arkkitehtuuri on älykkäämpää. Se voi keskeyttää mallin prosessin puolivälissä sukupolven puolivälissä tunnistekohtaisesti käsitelläkseen nopeasti äskettäin saapuneen pyynnön eri mallista samalla laitteistolla.
Tämä ennaltaehkäisevä ajoitus sallii yhden GPU:n palvella sujuvasti useita eri malleja – jopa seitsemää GPU:ta kohden testauksessa – ilman pitkiä viiveitä, jotka
Tämän seurauksena Alibaba väittää Aegaeonin kestävän perustavanlaatuisia ratkaisuja, jotka vaihtelevat 2–5 kertaa suuremmat pyynnöt kuin 25 kertaa suuremmat pyynnöt. monipuolinen malli luettelo.
Beyond Brute Force: Kuinka Token Level Scaling ratkaisee tekoälyn pitkän hännän ongelman
Tämä läpimurto toiminnan tehokkuudessa eroaa innovaatioista, jotka vähentävät tekoälyn koulutuskustannuksia. Vaikka Aegaeonin debyytti tuo valtavia säästöjä, se ei toista DeepSeek-hetkeä tammikuussa 2025.
Tässä tapahtumassa kiinalaisen yrityksen DeepSeekin artikkeli ehdotti radikaalisti halvempia koulutusmenetelmiä, mikä laukaisi suuren teknologiaosakkeiden myynnin, joka iski erityisen voimakkaasti GPU-valmistajiin, kuten Nvidia.
Sen sijaan, jos se on yhtä kriittistä, A, gr. päättelykustannusten haaste – hinta itse asiassa *käyttelee* tekoälymalleja tuotannossa.
Tämän ratkaiseminen on Alibaballe strateginen välttämättömyys. Yritys noudattaa aggressiivista tekoälystrategiaa ja julkaisee jatkuvasti sekä avoimen lähdekoodin että patentoituja malleja tehtäviin koodauksesta multimodaaliseen päättelyyn.
Tämä strategia luo erikoismallien”pitkän hännän”, joka tekee Aegaeonista niin arvokkaan. Rakentamalla tehokkaan alustan niiden pyörittämiseen Alibaba voi tehdä laajoista tekoälymarkkinoistaan taloudellisesti elinkelpoisen.
Tekoälyn asekilpailun uusi rintama: Tehokkuuden tehostaminen koko toimialalla
Alibaban keskittyminen aikataulujen suunnitteluun on yksi useista rintamalla teollisuuden kustannuksia lisäävässä AI-laajuisessa sodassa.
sekä koulutuksen että päättelyn hinta Koska suuret toimijat ovat edelleen keskeinen este laajalle leviämiselle, ne hyökkäävät tehokkuusongelmaan eri näkökulmista ja luovat monipuolisen innovaatiomaiseman, jossa jokainen tekoälypinon osa optimoidaan.
Yksi suosittu lähestymistapa on suunnitella itse malliarkkitehtuuri uudelleen. Esimerkiksi IBM:n uusimmat Granite 4.0-mallit käyttävät hybridisuunnittelua, jossa Transformer-lohkot yhdistetään erittäin tehokkaisiin Mamba-kerroksiin. Tällä menetelmällä tavoitellaan tehokkuutta rakentamalla perustasoltaan kevyempi moottori, joka kohdistuu ydinlaskentakuormitukseen.
IBM:n projektijohtaja Raghu Gantille”kaikki palaa KV-välimuistin vähentämiseen… Lisää suorituskykyä, pienempi viive, pidempi kontekstin pituus.”
Toinen strategia tähtää muistin optimointiin hallitsevassa Transformer-arkkitehtuurissa. Tokiossa sijaitsevat Sakana AI:n hermotarkkailumuistimallit (NAMM) käyttävät evoluutioalgoritmeja mallin KV-välimuistin älykkääseen hallintaan, joka on merkittävä muistin pullonkaula.
Tämä tekniikka vähentää dramaattisesti muistijalanjälkeä pitkiä konteksteja koskevissa tehtävissä.
Radikaalisemmat paradigmammat lähestymistavat ovat myös haasteita. Tutkijat esittelivät tänä kesänä aivoja muistuttavan näkömallin, joka matkii ihmisen hermorakenteita ylivertaisen energiatehokkuuden saavuttamiseksi.
Yksi sen kirjoittajista, Zejin Lu, selitti konseptin:”Ihmisille, kun havaitset tiettyjä esineitä, niillä on tyypillinen sijainti. Tiedät jo, että kengät ovat yleensä pohjassa, maassa. Lentokone kuluttaa yli kymmenen kertaa.”Vähemmän energiaa kuin tavallinen tekoäly, mikä osoittaa, että tyylikäs muotoilu voi joskus voittaa raakaa voimaa.
Aegaeonin dynaaminen aikataulutus on tehokas, täydentävä lähestymistapa näihin muihin menetelmiin. Se todistaa, että pitkälle kehitetty järjestelmäsuunnittelu voi tuottaa yhtä merkittäviä säästöjä kuin arkkitehtoniset remontit, mikä varmistaa, että tekoälyvallankumouksesta voi tulla kestävää liiketoimintaa.