Intsik na higanteng tech na si Alibaba ay nagsiwalat ng isang malakas na bagong sistema na bumagsak sa gastos ng pagpapatakbo ng artipisyal na katalinuhan hanggang sa 82 porsyento. href=”https://sigops.org/s/conferences/sosp/2025″target=”_ blangko”> simposium sa mga prinsipyo ng operating system (sosp) sa seoul —Ang mga pinaka-prestihiyosong mga lugar sa science sa computer-alibaba ay detalyado kung paano ang mga matalinong pag-iskedyul ng mga mamahaling gpu hardware na mas epektibo kaysa sa kasalukuyang pamamaraan. src=”https://winbuzzer.com/wp-content/uploads/2023/09/alibaba-campus-fficial.jpg”> href=”https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf”target=”_ blangko”> drastically pagputol ng mga gastos sa pagpapatakbo para sa merkado ng AI . Ang sariling data ni Alibaba ay nagsiwalat ng isang hindi kapani-paniwala na kawalan ng timbang: 17.7% ng gpu fleet nito ay nakatali sa paghahatid ng isang”mahabang buntot”ng mga modelo ng angkop na lugar na nagkakahalaga lamang ng 1.35% ng kabuuang mga kahilingan ng customer. Alibaba Cloud’s CTO Zhou Jingren, nagpapahiwatig ng isang mataas na antas ng madiskarteng pagtulak upang malutas ang problemang ito. Ang diskarte sa auto-scaling”. Ang prosesong ito ay nakakulong sa GPU, na lumilikha ng matinding”head-of-line blocking,”kung saan ang mga kagyat na kahilingan para sa iba pang mga modelo ay natigil sa isang pila sa likod ng isang matagal na gawain. Maaari itong i-pause ang proseso ng isang modelo ng kalagitnaan ng henerasyon, sa isang token-by-token na batayan, upang mabilis na mahawakan ang isang bagong kahilingan na kahilingan para sa ibang modelo sa parehong hardware. href=”https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf”target=”_ blangko”> Pananaliksik ng papel , ang maayos na kontrol na ito ay hindi kapani-paniwalang epektibo. Ang Aegaeon ay gumagamit ng isang serye ng mga pag-optimize ng full-stack, kasama ang sangkap na muling gamitin upang mapabilis ang muling pagsasaayos ng engine at tahasang pamamahala ng memorya upang maiwasan ang pagkawasak, na magkasama mabawasan ang karaniwang overhead na nauugnay sa auto-scaling sa pamamagitan ng isang kapansin-pansin na 97%. Catalog. Habang naghahatid ng malaking pagtitipid, ang pasinaya ni Aegaeon ay hindi isang pag-uulit ng sandali ng Deepseek noong Enero 2025. Mga Gastos-Ang presyo ng aktwal na * tumatakbo * mga modelo ng AI sa paggawa.
Paglutas Ito ay isang madiskarteng pangangailangan para sa Alibaba. Ang kumpanya ay hinahabol ang isang agresibong diskarte sa AI, na naglalabas ng isang palaging stream ng parehong open-source at proprietary na mga modelo para sa mga gawain na nagmula sa coding hanggang sa multimodal na pangangatuwiran. Sa pamamagitan ng pagbuo ng isang mahusay na platform upang patakbuhin ang mga ito, maaaring gawin ng Alibaba ang kanyang pamilihan sa AI na matipid na mabubuhay. Ang natitirang isang pangunahing hadlang sa malawakang pag-aampon, ang mga pangunahing manlalaro ay umaatake sa problema sa kahusayan mula sa iba’t ibang mga anggulo, na lumilikha ng isang magkakaibang tanawin ng pagbabago kung saan ang bawat bahagi ng stack ng AI ay na-optimize. Halimbawa, ang mga kamakailang modelo ng Granite 4.0 ng IBM, ay gumagamit ng isang hybrid na disenyo ng blending ng mga bloke ng transpormer na may mahusay na mga layer ng Mamba. Ang pamamaraang ito ay naghahanap ng kahusayan sa pamamagitan ng pagbuo ng isang pangunahing masidhing makina mula sa ground up, na target ang core computational load. Ang Tokyo na nakabase sa Sakana AI’s Neural Pansin Memels Models (NAMMS) ay gumagamit ng mga ebolusyonaryong algorithm upang matalinong pamahalaan ang KV cache ng isang modelo, isang pangunahing bottleneck ng memorya. Ang mga mananaliksik ngayong tag-init ay nagbukas ng isang modelo ng pangitain na tulad ng utak na ginagaya ang mga istrukturang neural ng tao para sa kahusayan ng enerhiya. Ang mga oras na mas kaunting enerhiya kaysa sa isang karaniwang AI, ang pagpapatunay ng matikas na disenyo ay maaaring matalo ang lakas ng loob. Pinapatunayan nito na ang mga sopistikadong sistema ng engineering ay maaaring magbunga ng mga pagtitipid bilang makabuluhan tulad ng mga mula sa mga overhaul ng arkitektura, tinitiyak na ang rebolusyon ng AI ay maaaring maging isang napapanatiling katotohanan ng negosyo.