中国のテクノロジー大手アリババは、人工知能の実行コストを最大 82% 削減する強力な新システムを発表しました。
Aegaeon と呼ばれるこのテクノロジーは、顧客が頻繁に使用しない数千の特殊な AI モデルを効率的に提供する方法という、クラウド プロバイダーにとっての重要な課題に対処します。
href=”https://sigops.org/s/conferences/sosp/2025″target=”_blank”>コンピュータ サイエンスの分野で最も権威のある会場の 1 つであるソウルでのオペレーティング システム原則に関するシンポジウム (SOSP)では、Alibaba が、Aegaeon のスマート スケジューリングが現在の方法よりもはるかに効率的に高価な GPU ハードウェアをプールする方法について詳しく説明しました。
3 か月の試用期間中、このシステムにより、Alibaba Cloud は 1,192 個ではなく 213 個の GPU を使用して膨大なモデルのコレクションを提供できました。AI 市場の運用コストを大幅に削減します。
このイノベーションは、今日の AI インフラストラクチャに内在する膨大な無駄を直接ターゲットにしています。アリババ自身のデータは、明らかな不均衡を明らかにしました。同社の GPU フリートの 17.7% は、顧客リクエスト全体のわずか 1.35% を占めるニッチ モデルの「ロングテール」の提供に拘束されていました。
多様なモデルの成長する市場をホストするクラウド プラットフォームにとって、この非効率性は莫大で持続不可能な運用コストを意味します。
Aegaeon の開発、共著 Alibaba Cloud の CTO Zhou Jingren 氏は、この問題を解決するためのハイレベルな戦略的推進を示唆しています。
アイドル GPU からスマート スケジューリングへ: Aegaeon の画期的な進歩
その中核となる Aegaeon は、多くのシステムで使用されている粗雑なリクエスト レベルのスケーリングを、より詳細な「トークン レベル」に置き換えます。
従来のシステムは、モデルが 1 人のユーザーに対する応答の生成を完全に完了するまで待つ必要がありました。このプロセスにより GPU がロックアップされ、深刻な「ヘッドオブライン ブロッキング」が発生します。これにより、他のモデルに対する緊急のリクエストが、長時間実行されるタスクの後ろのキューに滞留します。
Aegaeon のアーキテクチャはよりスマートです。生成途中でトークンごとにモデルのプロセスを一時停止し、同じハードウェア上の別のモデルに対する新しく到着したリクエストを迅速に処理できます。
このプリエンプティブ スケジューリングにより、サービス レベル目標に違反する長い遅延を発生させることなく、単一の GPU が複数の異種モデル (テストでは GPU あたり最大 7 つ) を流動的に処理できます。
によると、研究論文では、このきめ細かい制御が非常に効果的です。 Aegaeon は、エンジンの再初期化を高速化するためのコンポーネントの再利用や断片化を防ぐための明示的なメモリ管理など、一連のフルスタック最適化を採用しており、これらにより、自動スケーリングに関連する一般的なオーバーヘッドが驚くべき 97% 削減されます。
その結果、Alibaba は、Aegaeon は代替ソリューションに比べて 2 ~ 2.5 倍の高いリクエスト レートを維持でき、多様なモデルを提供する経済性を根本的に変えることができると主張しています。
ブルート フォースを超えて: トークン レベルのスケーリングが AI のロングテール問題を解決する方法
この運用効率の画期的な進歩は、AI のトレーニング コストを削減するイノベーションとは異なります。 Aegaeon のデビューは、巨額の節約を実現しながらも、2025 年 1 月の DeepSeek の瞬間の繰り返しではありません。
このイベントでは、中国企業 DeepSeek の論文が根本的に安価なトレーニング方法を示唆しており、大手ハイテク株の下落を引き起こし、Nvidia などの GPU メーカーに特に大きな打撃を与えました。
代わりに、Aegaeon は、見出しにはならないものの、同様に重要な推論の課題に取り組んでいます。 コスト-本番環境で AI モデルを実際に「実行」するための価格。
これを解決することは、アリババにとって戦略的に必要です。同社は積極的な AI 戦略を追求しており、コーディングからマルチモーダル推論に至るタスクに対応するオープンソース モデルと独自モデルの両方を継続的にリリースしています。
まさにこの戦略が、Aegaeon の価値を高める特殊なモデルの「ロングテール」を生み出します。アリババは、AI を実行するための効率的なプラットフォームを構築することで、その広大な AI 市場を経済的に存続させることができます。
AI 軍拡競争の新たな戦線: 業界全体での効率化の推進
アリババがスケジュール管理に注力していることは、AI の驚異的なコストに対する業界全体の戦争におけるいくつかの戦線の 1 つです。
トレーニングと推論の両方に代償が残る中、 これが広範な導入への主要な障壁となる中、大手企業はさまざまな角度から効率性の問題に取り組み、AI スタックのあらゆる部分が最適化される多様なイノベーションの風景を生み出しています。
一般的なアプローチの 1 つは、モデル アーキテクチャ自体を再設計することです。たとえば、IBM の最近の Granite 4.0 モデルは、Transformer ブロックと高効率の Mamba レイヤーを組み合わせたハイブリッド設計を使用しています。この手法は、コアの計算負荷をターゲットにして、根本的に無駄のないエンジンをゼロから構築することで効率を追求します。
IBM のプロジェクト リーダー Raghu Ganti 氏は、「すべては KV キャッシュの削減に帰着します。スループットの向上、レイテンシの短縮、コンテキストの長さの延長です。」
もう 1 つの戦略は、主要な Transformer アーキテクチャ内でのメモリの最適化をターゲットとしています。東京を拠点とするSakana AIのニューラル・アテンション・メモリ・モデル(NAMM)は、進化的アルゴリズムを使用して、主要なメモリ・ボトルネックであるモデルのKVキャッシュをインテリジェントに管理します。
この技術により、長いコンテキストを含むタスクのメモリ使用量が大幅に削減されます。
スケーリングのパラダイムに完全に挑戦する、より過激なアプローチも登場しています。研究者らはこの夏、優れたエネルギー効率を実現するために人間の神経構造を模倣した脳に似た視覚モデルを発表した。
その共著者の一人、Zejin Lu 氏は、このコンセプトについて次のように説明した。「人間の場合、特定の物体を検出すると、それらは典型的な位置を持ちます。靴は通常地面の底にあることはすでにご存知でしょう。飛行機は上部にあります。」
結果として得られるモデルは、消費電力を超えています。 標準 AI の 10 分の 1 のエネルギーで、エレガントなデザインが時には力技に勝てることが証明されています。
Aegaeon の動的スケジューリングは、これらの他の方法を補完する強力なアプローチです。これは、洗練されたシステム エンジニアリングがアーキテクチャの全面見直しと同じくらい大幅な節約をもたらし、AI 革命が持続可能なビジネス現実となることを保証することを証明しています。