gergasi teknologi Cina Alibaba telah mendedahkan sistem baru yang kuat yang mengurangkan kos kecerdasan buatan dengan sehingga 82 peratus. href=”https://sigops.org/s/conferences/sosp/2025″target=”_ blank”> simposium pada prinsip-prinsip sistem pengendalian yang paling banyak. SRC=”https://winbuzzer.com/wp-content/uploads/2023/09/alibaba-campus-official.jpg”>
href=”https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf”target=”_ blank”> secara drastik memotong kos operasi untuk pasaran AInya . Data Alibaba sendiri menunjukkan ketidakseimbangan yang tegas: 17.7% daripada armada GPUnya terikat dengan”ekor panjang”model niche yang menyumbang hanya 1.35% daripada jumlah permintaan pelanggan. yang dikarang bersama oleh CTO Jingren CTO Alibaba Cloud, menandakan dorongan strategik peringkat tinggi untuk menyelesaikan masalah ini.
Auto-Scaling”Pendekatan.
Sistem tradisional mesti menunggu model untuk menyelesaikan sepenuhnya menghasilkan respons untuk satu pengguna. Proses ini mengunci GPU, mewujudkan”penyekatan kepala”yang teruk, di mana permintaan segera untuk model lain terjebak dalam barisan di sebalik tugas jangka panjang.
Senibina Aegaeon lebih pintar. Ia boleh menjeda proses model pertengahan generasi, berdasarkan token-by-token, dengan cepat mengendalikan permintaan yang baru tiba untuk model yang berbeza pada perkakasan yang sama.
href=”https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf”target=”_ blank”> kertas penyelidikan , kawalan halus ini sangat berkesan. Aegaeon menggunakan satu siri pengoptimuman penuh, termasuk penggunaan semula komponen untuk mempercepatkan reinitialization enjin dan pengurusan ingatan yang jelas untuk mencegah pemecahan, yang bersama-sama mengurangkan overhead biasa yang berkaitan dengan skala automatik dengan 97%yang luar biasa.
Katalog. Semasa menyampaikan penjimatan yang besar, debut Aegaeon tidak mengulangi momen Deepseek pada Januari 2025. Kos-Harga sebenarnya * menjalankan * model AI dalam pengeluaran.Menyelesaikan Ini adalah keperluan strategik untuk Alibaba. Syarikat sedang mengejar strategi AI yang agresif, melepaskan aliran berterusan kedua-dua sumber terbuka dan model proprietari untuk tugas-tugas yang terdiri daripada pengekodan ke penalaran multimodal. Dengan membina platform yang cekap untuk menjalankannya, Alibaba dapat membuat pasaran AI yang luasnya boleh menjadi ekonomi.
Halangan utama untuk penggunaan yang meluas, pemain utama menyerang masalah kecekapan dari sudut yang berbeza, mewujudkan landskap inovasi yang pelbagai di mana setiap bahagian timbunan AI dioptimumkan.
Model Granite 4.0 baru-baru ini, IBM, menggunakan blok pengubah pengubahsuaian reka bentuk hibrid dengan lapisan Mamba yang sangat cekap. Kaedah ini mencari kecekapan dengan membina enjin yang lebih leaner dari bawah ke atas, mensasarkan beban pengiraan teras. Model Memori Perhatian Neural Neural yang berpangkalan di Tokyo (NAMMS) menggunakan algoritma evolusi untuk mengurus cache KV secara bijak, kesesakan memori utama. Penyelidik musim panas ini melancarkan model penglihatan seperti otak yang meniru struktur saraf manusia untuk kecekapan tenaga yang unggul. Kali kurang tenaga daripada AI standard, membuktikan reka bentuk yang elegan kadang-kadang boleh mengalahkan kekerasan. Ia membuktikan bahawa kejuruteraan sistem yang canggih dapat menghasilkan penjimatan yang penting seperti yang dari overhauls seni bina, memastikan revolusi AI dapat menjadi realiti perniagaan yang mampan.