Raksasa teknologi asal Tiongkok, Alibaba, telah meluncurkan sistem baru yang canggih yang mampu memangkas biaya pengoperasian kecerdasan buatan hingga 82 persen.
Teknologi tersebut, yang disebut Aegaeon, mengatasi tantangan penting bagi penyedia cloud: cara melayani ribuan model AI khusus yang jarang digunakan pelanggan secara efisien.
Dalam penelitian yang dipresentasikan di Simposium Prinsip Sistem Operasi (SOSP) di Seoul—salah satu tempat paling bergengsi di bidang ilmu komputer—Alibaba merinci bagaimana penjadwalan cerdas Aegaeon mengumpulkan perangkat keras GPU yang mahal jauh lebih efektif dibandingkan metode saat ini.
Selama uji coba tiga bulan, sistem ini memungkinkan Alibaba Cloud melayani banyak koleksi model hanya dengan menggunakan 213 GPU, bukan 1.192, secara drastis memotong biaya operasional untuk pasar AI-nya.
Inovasi ini secara langsung menargetkan limbah besar yang melekat pada infrastruktur AI saat ini. Data Alibaba sendiri menunjukkan adanya ketidakseimbangan yang mencolok: 17,7% dari armada GPU-nya terikat untuk melayani “long tail”model khusus yang hanya menyumbang 1,35% dari total permintaan pelanggan.
Untuk platform cloud yang menampung pasar yang berkembang dengan beragam model, ketidakefisienan ini menunjukkan biaya operasional yang sangat besar dan tidak berkelanjutan.
Pengembangan Aegaeon, ditulis bersama oleh CTO Alibaba Cloud, Zhou Jingren, menandakan dorongan strategis tingkat tinggi untuk mengatasi masalah ini.
Dari GPU Idle hingga Penjadwalan Cerdas: Terobosan Aegaeon
Pada intinya, Aegaeon menggantikan penskalaan tingkat permintaan yang kasar yang digunakan oleh banyak sistem dengan “penskalaan otomatis tingkat token” yang jauh lebih terperinci. pendekatan.
Sistem tradisional harus menunggu hingga model selesai menghasilkan respons untuk satu pengguna. Proses ini mengunci GPU, sehingga menimbulkan “pemblokiran head-of-line” yang parah, sehingga permintaan mendesak untuk model lain terjebak dalam antrean di belakang tugas yang berjalan lama.
Arsitektur Aegaeon lebih cerdas. Teknologi ini dapat menjeda proses pertengahan generasi model, berdasarkan token demi token, untuk dengan cepat menangani permintaan baru yang masuk untuk model berbeda pada perangkat keras yang sama.
Penjadwalan preemptif ini memungkinkan satu GPU melayani beberapa model yang berbeda dengan lancar—hingga tujuh model per GPU dalam pengujian—tanpa penundaan lama yang melanggar tujuan tingkat layanan.
Menurut makalah penelitian, kontrol menyeluruh ini sangat efektif. Aegaeon menggunakan serangkaian optimasi full-stack, termasuk penggunaan kembali komponen untuk mempercepat inisialisasi ulang mesin dan manajemen memori eksplisit untuk mencegah fragmentasi, yang bersama-sama mengurangi overhead umum yang terkait dengan penskalaan otomatis sebesar 97%.
Hasilnya, Alibaba mengklaim Aegaeon dapat mempertahankan tingkat permintaan 2 hingga 2,5 kali lebih tinggi dibandingkan solusi alternatif, sehingga secara mendasar mengubah keekonomian dalam melayani model yang beragam katalog.
Melampaui Brute Force: Bagaimana Penskalaan Tingkat Token Memecahkan Masalah Long Tail AI
Terobosan dalam efisiensi operasional ini berbeda dari inovasi yang mengurangi biaya pelatihan AI. Meskipun memberikan penghematan yang besar, debut Aegaeon bukanlah pengulangan momen DeepSeek pada bulan Januari 2025.
Pada peristiwa tersebut muncul makalah dari perusahaan Tiongkok DeepSeek yang menyarankan metode pelatihan yang jauh lebih murah, sehingga memicu aksi jual besar-besaran saham teknologi yang sangat memukul para pembuat GPU seperti Nvidia.
Sebaliknya, Aegaeon mengatasi tantangan biaya inferensi yang sama pentingnya, meskipun kurang menarik perhatian, yaitu biaya inferensi—harga untuk benar-benar *menjalankan* model AI dalam produksi.
Memecahkan masalah ini adalah kebutuhan strategis bagi Alibaba. Perusahaan ini menjalankan strategi AI yang agresif, dengan terus merilis model sumber terbuka dan model kepemilikan untuk berbagai tugas, mulai dari pengkodean hingga penalaran multimodal.
Strategi ini menciptakan model khusus “ekor panjang” yang menjadikan Aegaeon sangat berharga. Dengan membangun platform yang efisien untuk menjalankannya, Alibaba dapat membuat pasar AI mereka yang luas menjadi layak secara ekonomi.
Sebuah Front Baru dalam Perlombaan Senjata AI: Dorongan di Seluruh Industri untuk Efisiensi
Fokus Alibaba pada penjadwalan adalah salah satu dari beberapa front dalam perang industri melawan biaya AI yang sangat besar.
Dengan biaya pelatihan dan inferensi yang harus dibayar. tetap menjadi hambatan utama dalam adopsi secara luas, para pemain besar mengatasi masalah efisiensi dari berbagai sudut pandang, sehingga menciptakan lanskap inovasi yang beragam di mana setiap bagian tumpukan AI dioptimalkan.
Salah satu pendekatan yang populer adalah mendesain ulang arsitektur model itu sendiri. Model Granite 4.0 terbaru IBM, misalnya, menggunakan desain hibrida yang memadukan blok Transformer dengan lapisan Mamba yang sangat efisien. Metode ini mencari efisiensi dengan membangun mesin yang secara fundamental lebih ramping dari awal, menargetkan beban komputasi inti.
Bagi pemimpin proyek IBM, Raghu Ganti, “semuanya kembali ke pengurangan cache KV… Throughput yang lebih banyak, latensi yang lebih rendah, panjang konteks yang lebih panjang.”
Strategi lain menargetkan optimalisasi memori dalam arsitektur Transformer yang dominan. Neural Attention Memory Models (NAMMs) Sakana AI yang berbasis di Tokyo menggunakan algoritme evolusioner untuk secara cerdas mengelola cache KV model, yang merupakan hambatan memori utama.
Teknik ini secara signifikan mengurangi jejak memori untuk tugas-tugas yang melibatkan konteks panjang.
Pendekatan yang lebih radikal juga muncul yang menantang paradigma penskalaan sepenuhnya. Para peneliti pada musim panas ini meluncurkan model penglihatan mirip otak yang meniru struktur saraf manusia untuk efisiensi energi yang unggul.
Salah satu rekan penulisnya, Zejin Lu, menjelaskan konsep tersebut:”Bagi manusia, ketika Anda mendeteksi objek tertentu, mereka memiliki posisi yang khas. Anda sudah tahu bahwa sepatu biasanya berada di bawah, di tanah. Pesawat terbang, berada di atas.”
Model yang dihasilkan menghabiskan lebih dari sepuluh kali lebih sedikit energi dibandingkan AI standar, membuktikan bahwa desain yang elegan terkadang dapat mengalahkan kekerasan.
Penjadwalan dinamis Aegaeon adalah pendekatan yang kuat dan saling melengkapi dengan metode lainnya. Hal ini membuktikan bahwa rekayasa sistem yang canggih dapat menghasilkan penghematan yang sama besarnya dengan penghematan pada perombakan arsitektur, sehingga memastikan revolusi AI dapat menjadi kenyataan bisnis yang berkelanjutan.