Sistemul Aegaeon de la Alibaba reduce costurile inferenței AI cu 82% cu programarea inteligentă a GPU

Giantul tehnologic chinez Alibaba a dezvăluit un nou sistem puternic, care reduce costurile de funcționare a inteligenței artificiale cu până la 82 la sută.

Tehnologia, numită Aegaeon, abordează o provocare critică pentru furnizorii de cloud: cum să deservim eficient mii de modele AI specializate pe care clienții le folosesc rar.

În cercetarea prezentată la Symposium on Operating Systems Principles (SOSP) din Seul—una dintre cele mai prestigioase locații din informatică—Alibaba a detaliat modul în care programarea inteligentă Aegaeon reunește metodele GPU scumpe mult mai eficient decât hardware-urile actuale.

În timpul unei probe de trei luni, sistemul a permis lui Alibaba Cloud să deservească o colecție vastă de modele folosind doar 213 GPU-uri în loc de 1.192, reducerea drastică a costurilor operaționale pentru piața sa de AI.

Inovația vizează în mod direct deșeurile imense inerente infrastructurii AI de astăzi. Datele proprii ale Alibaba au dezvăluit un dezechilibru puternic: 17,7% din flota sa de GPU a fost legată pentru a deservi o „coadă lungă” de modele de nișă care reprezentau doar 1,35% din totalul cererilor clienților.

Pentru platformele cloud care găzduiesc o piață în creștere de modele diverse, această ineficiență reprezintă o operațiune masivă și nesustenabilă.

ea nesustenabilă. co-autorizat de CTO Zhou Jingren de la Alibaba Cloud, semnalează un impuls strategic la nivel înalt pentru a rezolva această problemă.

De la GPU-uri inactive la programare inteligentă: Aegaeon Breakthrough

În esență, Aegaeon înlocuiește scalarea brută la nivel de solicitare folosită de multe sisteme cu o „scalare automată” mult mai mare. abordare.

Sistemele tradiționale trebuie să aștepte ca un model să termine complet generarea unui răspuns pentru un utilizator. Acest proces blochează GPU-ul, creând o „blocare a capului de linie” sever, în care solicitările urgente pentru alte modele rămân blocate într-o coadă în spatele unei sarcini de lungă durată.

Arhitectura lui Aegaeon este mai inteligentă. Poate întrerupe procesul unui model de generație mijlocie, pe bază de simbol cu simbol, pentru a gestiona rapid o solicitare nou sosită pentru un model diferit pe același hardware.

Această programare preventivă permite unui singur GPU să deservească fluid mai multe modele disparate-până la șapte per GPU la testare-fără întârzierile mari care încalcă serviciul

Accord. href=”https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf”target=”_blank”>document de cercetare, acest control cu granulație fină este incredibil de eficient. Aegaeon folosește o serie de optimizări full-stack, inclusiv reutilizarea componentelor pentru a accelera reinițializarea motorului și gestionarea explicită a memoriei pentru a preveni fragmentarea, care împreună reduc supraîncărcarea tipică asociată cu scalarea automată cu un remarcabil 97%.

Ca urmare, Alibaba susține că Aegaeon poate susține de 2 până la 2,5 ori mai multe soluții alternative, care deservesc ratele de solicitare fundamentale ale diverselor soluții economice. catalog.

Dincolo de forța brută: cum scalarea la nivel de token rezolvă problema coadă lungă a AI

Această descoperire în eficiența operațională este diferită de inovațiile care reduc costurile de instruire AI. Deși oferă economii uriașe, debutul lui Aegaeon nu este o repetare a momentului DeepSeek din ianuarie 2025.

Acest eveniment a văzut o lucrare a companiei chineze DeepSeek sugerând metode de antrenament radical mai ieftine, declanșând o vânzare majoră de acțiuni tehnologice care i-a lovit în mod deosebit pe producătorii de GPU precum Nvidia, în mod deosebit de greu. captarea titlurilor, provocarea costurilor de inferență—the prețul modelelor de inteligență artificială care se execută efectiv în producție.

Rezolvarea acestei probleme este o necesitate strategică pentru Alibaba. Compania urmărește o strategie agresivă de inteligență artificială, lansând un flux constant de modele open-source și proprietare pentru sarcini, de la codificare la raționament multimodal.

Această strategie creează „coada lungă” a modelelor specializate care face ca Aegaeon să fie atât de valoros. Prin construirea unei platforme eficiente pentru a le gestiona, Alibaba își poate face piața extinsă de AI viabilă din punct de vedere economic.

Un nou front în cursa înarmărilor AI: Impingerea la nivel de industrie pentru eficiență

Accentul lui Alibaba pe programare este unul dintre mai multe fronturi într-un război la nivel de industrie asupra costurilor AI și a antrenării.

deducere rămânând o barieră cheie în calea adoptării pe scară largă, jucătorii majori atacă problema eficienței din diferite unghiuri, creând un peisaj divers al inovației în care fiecare parte a stivei AI este optimizată.

O abordare populară este reproiectarea arhitecturii modelului în sine. Modelele recente Granite 4.0 ale IBM, de exemplu, folosesc un design hibrid care combină blocuri Transformer cu straturi Mamba extrem de eficiente. Această metodă urmărește eficiența prin construirea unui motor fundamental mai slab de la zero, țintind sarcina de calcul de bază.

Pentru liderul de proiect al IBM, Raghu Ganti, „totul se întoarce la reducerea memoriei cache KV… Mai mult debit, latență mai mică, lungime mai mare a contextului.”

O altă strategie vizează optimizarea memoriei în cadrul arhitecturii dominante Transformer. Modelele de memorie de atenție neuronală (NAMM) de la Sakana AI, cu sediul în Tokyo, folosesc algoritmi evolutivi pentru a gestiona în mod inteligent memoria cache KV a unui model, un blocaj major al memoriei.

Această tehnică reduce în mod dramatic amprenta memoriei pentru sarcinile care implică contexte lungi.

Abordări mai radicale care provoacă, de asemenea, sunt în curs de dezvoltare paradigma de extindere. Cercetătorii au dezvăluit în această vară un model de viziune asemănătoare creierului care imită structurile neuronale umane pentru o eficiență energetică superioară.

Unul dintre coautorii săi, Zejin Lu, a explicat conceptul: „Pentru oameni, atunci când detectezi anumite obiecte, ele au o poziție tipică. Știi deja că pantofii sunt de obicei în jos, pe sol. Avionul, modelul consumă peste zece.”

de ori mai puțină energie decât o IA standard, dovedind că designul elegant poate învinge uneori forța brută.

Programarea dinamică a lui Aegaeon este o abordare puternică, complementară a acestor alte metode. Demonstrează că ingineria sofisticată a sistemelor poate genera economii la fel de semnificative ca cele din reviziile arhitecturale, asigurându-se că revoluția AI poate deveni o realitate de afaceri durabilă.

Sistemul Aegaeon de la Alibaba reduce costurile inferenței AI cu 82% cu programarea inteligentă a GPU

Published by All Things Windows on October 21, 2025

De la GPU-uri inactive la programare inteligentă: Aegaeon Breakthrough

Dincolo de forța brută: cum scalarea la nivel de token rezolvă problema coadă lungă a AI

Un nou front în cursa înarmărilor AI: Impingerea la nivel de industrie pentru eficiență

IT Info

YouTube implementează un instrument de asemănare AI pentru creatori, în urma controversei Sora Deepfake de la OpenAI

IT Info

OpenAI lansează browserul ChatGPT Atlas AI pentru a prelua Google Chrome

IT Info

Google reînnoiește AI Studio cu experiența „Vibe Coding”, deschizând calea pentru Gemini 3.0

Sistemul Aegaeon de la Alibaba reduce costurile inferenței AI cu 82% cu programarea inteligentă a GPU

Published by All Things Windows on October 21, 2025

De la GPU-uri inactive la programare inteligentă: Aegaeon Breakthrough

Dincolo de forța brută: cum scalarea la nivel de token rezolvă problema coadă lungă a AI

Un nou front în cursa înarmărilor AI: Impingerea la nivel de industrie pentru eficiență

Related Posts

IT Info

YouTube implementează un instrument de asemănare AI pentru creatori, în urma controversei Sora Deepfake de la OpenAI

IT Info

OpenAI lansează browserul ChatGPT Atlas AI pentru a prelua Google Chrome

IT Info

Google reînnoiește AI Studio cu experiența „Vibe Coding”, deschizând calea pentru Gemini 3.0