El gigante tecnológico chino Alibaba ha revelado un nuevo y poderoso sistema que reduce el costo de ejecutar inteligencia artificial hasta en un 82 por ciento.
La tecnología, llamada Aegaeon, aborda un desafío crítico para los proveedores de la nube: cómo servir de manera eficiente miles de modelos de IA especializados que los clientes usan con poca frecuencia.
En una investigación presentada en el Simposio sobre principios de sistemas operativos (SOSP) en Seúl—uno de los lugares más prestigiosos en ciencias de la computación—Alibaba detalló cómo la programación inteligente de Aegaeon agrupa el costoso hardware GPU de manera mucho más efectiva que los métodos actuales.
Durante una prueba de tres meses, el sistema permitió a Alibaba Cloud ofrecer una amplia colección de modelos utilizando solo 213 GPU en lugar de 1192, recortando drásticamente los costos operativos para su mercado de IA.
La innovación apunta directamente al inmenso desperdicio inherente a la infraestructura de IA actual. Los propios datos de Alibaba revelaron un marcado desequilibrio: el 17,7% de su flota de GPU estaba ocupada sirviendo una”larga cola”de modelos de nicho que representaban solo el 1,35% del total de solicitudes de los clientes.
Para las plataformas en la nube que albergan un mercado creciente de diversos modelos, esta ineficiencia representa un gasto operativo masivo e insostenible.
El desarrollo de Aegaeon, en coautoría por el CTO de Alibaba Cloud, Zhou Jingren, indica un impulso estratégico de alto nivel para resolver este problema.
De las GPU inactivas a la programación inteligente: el avance de Aegaeon
En esencia, Aegaeon reemplaza el escalamiento crudo a nivel de solicitud utilizado por muchos sistemas con un “escalamiento automático a nivel de token” mucho más granular. enfoque.
Los sistemas tradicionales deben esperar a que un modelo termine por completo de generar una respuesta para un usuario. Este proceso bloquea la GPU, creando un severo”bloqueo de cabecera”, donde las solicitudes urgentes de otros modelos quedan atrapadas en una cola detrás de una tarea de larga duración.
La arquitectura de Aegaeon es más inteligente. Puede pausar el proceso de un modelo a mitad de generación, token por token, para manejar rápidamente una solicitud recién llegada de un modelo diferente en el mismo hardware.
Esta programación preventiva permite que una sola GPU atienda de manera fluida múltiples modelos dispares (hasta siete por GPU en pruebas) sin las largas demoras que violan los objetivos de nivel de servicio.
Según artículo de investigación, este control detallado es increíblemente efectivo. Aegaeon emplea una serie de optimizaciones de pila completa, incluida la reutilización de componentes para acelerar la reinicialización del motor y la gestión explícita de la memoria para evitar la fragmentación, que en conjunto reducen la sobrecarga típica asociada con el escalado automático en un notable 97%.
Como resultado, Alibaba afirma que Aegaeon puede soportar tasas de solicitudes de 2 a 2,5 veces más altas que las soluciones alternativas, cambiando fundamentalmente la economía de servir un modelo diverso. catálogo.
Más allá de la fuerza bruta: cómo el escalamiento a nivel de token resuelve el problema de la cola larga de la IA
Este avance en la eficiencia operativa es distinto de las innovaciones que reducen los costos de capacitación de la IA. Si bien ofrece enormes ahorros, el debut de Aegaeon no es una repetición del momento DeepSeek en enero de 2025.
En ese evento, un artículo de la empresa china DeepSeek sugirió métodos de entrenamiento radicalmente más baratos, lo que desencadenó una importante liquidación de acciones tecnológicas que afectó especialmente a los fabricantes de GPU como Nvidia.
En cambio, Aegaeon aborda el desafío igualmente crítico, aunque menos llamativo, de los costos de inferencia: el precio. de *ejecutar* modelos de IA en producción.
Resolver esto es una necesidad estratégica para Alibaba. La empresa está siguiendo una agresiva estrategia de IA, lanzando un flujo constante de modelos propietarios y de código abierto para tareas que van desde la codificación hasta el razonamiento multimodal.
Esta misma estrategia crea la”larga cola”de modelos especializados que hace que Aegaeon sea tan valioso. Al construir una plataforma eficiente para ejecutarlas, Alibaba puede hacer que su creciente mercado de IA sea económicamente viable.
Un nuevo frente en la carrera armamentista de la IA: el impulso de toda la industria hacia la eficiencia
El enfoque de Alibaba en la programación es uno de varios frentes en una guerra que abarca a toda la industria contra los asombrosos costos de la IA.
Con el precio tanto de la capacitación como de la inferencia Aunque sigue siendo una barrera clave para la adopción generalizada, los principales actores están atacando el problema de la eficiencia desde diferentes ángulos, creando un panorama diverso de innovación donde se optimiza cada parte de la pila de IA.
Un enfoque popular es rediseñar la arquitectura del modelo en sí. Los modelos recientes Granite 4.0 de IBM, por ejemplo, utilizan un diseño híbrido que combina bloques Transformer con capas Mamba altamente eficientes. Este método busca eficiencia mediante la construcción de un motor fundamentalmente más eficiente desde cero, dirigido a la carga computacional central.
Para el líder del proyecto de IBM, Raghu Ganti,”todo vuelve a la reducción de la caché KV… Más rendimiento, menor latencia, mayor longitud de contexto”.
Otra estrategia apunta a la optimización de la memoria dentro de la arquitectura dominante de Transformer. Los modelos de memoria de atención neuronal (NAMM) de Sakana AI, con sede en Tokio, utilizan algoritmos evolutivos para gestionar de forma inteligente la caché KV de un modelo, un importante cuello de botella de la memoria.
Esta técnica reduce drásticamente la huella de memoria para tareas que involucran contextos largos.
También están surgiendo enfoques más radicales que desafían por completo el paradigma de escalamiento. Este verano, los investigadores dieron a conocer un modelo de visión similar al cerebro que imita las estructuras neuronales humanas para lograr una eficiencia energética superior.
Uno de sus coautores, Zejin Lu, explicó el concepto:”Para los humanos, cuando detectas ciertos objetos, tienen una posición típica. Ya sabes que los zapatos suelen estar en la parte inferior, en el suelo. El avión, está en la parte superior”.
El modelo resultante consume más de diez veces menos energía que una IA estándar, lo que demuestra que un diseño elegante a veces puede vencer a la fuerza bruta.
La programación dinámica de Aegaeon es un enfoque poderoso y complementario a estos otros métodos. Demuestra que la ingeniería de sistemas sofisticada puede generar ahorros tan significativos como los de las revisiones arquitectónicas, garantizando que la revolución de la IA pueda convertirse en una realidad empresarial sostenible.