Tras la presentación en octubre de su silicio M5, Apple ha publicado los planos arquitectónicos para el”Acelerador neuronal”del chip, un componente de GPU dedicado diseñado para desafiar el dominio de Nvidia en las cargas de trabajo locales de IA.
Detallado en un nuevo informe técnico de hoy, la arquitectura aprovecha el marco de aprendizaje automático MLX actualizado para ofrecer una velocidad de hasta 4 veces en la inferencia de”tiempo hasta el primer token”(TTFT) en comparación con el M4.
Esta divulgación transforma lo que inicialmente era un punto de marketing en una capacidad de hardware documentada, lo que confirma que el ancho de banda de memoria de 153 GB/s y las unidades de matriz especializadas del M5 están diseñados específicamente para romper los cuellos de botella de memoria que afectan la ejecución de modelos de lenguaje grande (LLM) en dispositivos de consumo.
Dentro del M5: la arquitectura del acelerador neuronal
En lugar de depender únicamente de la velocidad del reloj sin procesar, los ingenieros de Apple han rediseñado fundamentalmente los núcleos de GPU dentro del M5 para incluir”aceleradores neuronales”especializados. Estas unidades están diseñadas específicamente para manejar las densas operaciones de multiplicación de matrices que sustentan la IA generativa moderna.
En la presentación del chip M5, los ejecutivos posicionaron el silicio como un salto adelante, pero los detalles técnicos permanecieron opacos hasta la publicación del informe técnico oficial de Apple.
Los documentos técnicos actualizados aclaran que los aceleradores se dirigen específicamente a la fase de inferencia de”precarga”, el paso inicial computacionalmente intensivo donde el modelo procesa la solicitud del usuario.
En el lanzamiento, Johny Srouji, vicepresidente senior de tecnologías de hardware de Apple, enmarcó la capacidad como un cambio estructural y señaló que”M5 marca el comienzo del próximo gran salto en el rendimiento de la IA para el silicio de Apple. Con la introducción de aceleradores neuronales en la GPU, M5 ofrece un gran impulso para las cargas de trabajo de IA”.
Lo más importante es que las mejoras en el rendimiento no son uniformes en todas las tareas. Si bien la fase de precarga ve una mejora significativa de 4 veces debido a las nuevas unidades de cómputo, la fase posterior de generación de tokens sigue limitada por la rapidez con la que los datos pueden moverse a través del sistema. Como se explica en el informe técnico oficial:
“En la inferencia de LLM, la generación del primer token está vinculada a la computación y aprovecha al máximo los aceleradores neuronales. La generación de tokens posteriores está limitada al ancho de banda de la memoria, en lugar de a la capacidad de computación.
En las arquitecturas que probamos en esta publicación, el M5 proporciona un aumento de rendimiento del 19 al 27 % en comparación con el M4, gracias a su mayor ancho de banda de memoria (120 GB/s para el M4, 153 GB/s para el M5, que es un 28 % más alto).
En cuanto al uso de memoria, el MacBook Pro de 24 GB puede contener fácilmente 8 B con precisión BF16 o 30 B MoE de 4 bits cuantificados, manteniendo la carga de trabajo de inferencia por debajo de 18 GB para ambas arquitecturas”.
Tal disparidad resalta la naturaleza dual de la ruta de actualización del M5. El ancho de banda de la memoria, ahora registrado a 153 GB/s, representa un aumento del 28 % con respecto a los 120 GB/s del M4, lo que se correlaciona directamente con el aumento observado del 19-27 % en la velocidad de generación.
Para los desarrolladores, esto significa que el M5 es particularmente hábil en el manejo de indicaciones complejas y de contexto largo donde el tiempo de procesamiento inicial es el principal cuello de botella. Con 24 GB de capacidad de memoria unificada, el sistema permite la ejecución de modelos sustanciales, como un modelo de parámetros de 8B con precisión BF16 o un modelo de Mezcla de Expertos (MoE) de 30B con cuantificación de 4 bits, completamente en el dispositivo.
Según el equipo de investigación de Apple, “los aceleradores neuronales proporcionan operaciones dedicadas de multiplicación de matrices, que son críticas para muchas cargas de trabajo de aprendizaje automático, y permiten experiencias de inferencia de modelos aún más rápidas en Apple silicio.”
Desbloqueando el silicio: evolución del marco MLX
Más allá del silicio en sí, la historia del software ha evolucionado para igualar las capacidades del hardware. Para utilizar los nuevos aceleradores neuronales, los desarrolladores deben actualizar a la versión 0.30.0 del marco MLX, la biblioteca de matrices de código abierto de Apple diseñada para arquitecturas de memoria unificada.
La documentación indica que el soporte total para estas características requiere”macOS 26.2″, un número de versión que Probablemente se refiere a una compilación interna o un error tipográfico para la próxima versión beta de macOS 16.2 (Tahoe). Este prerrequisito subraya el estrecho acoplamiento entre el kernel del sistema operativo y los sombreadores de rendimiento metálicos que impulsan los aceleradores.
Con la pila actualizada, Apple afirma que”los aceleradores neuronales de GPU brillan con MLX en cargas de trabajo de aprendizaje automático que implican grandes multiplicaciones de matrices, lo que produce una aceleración de hasta 4 veces en comparación con una línea base M4 para el tiempo hasta el primer token en la inferencia del modelo de lenguaje”.
Los desarrolladores también pueden aprovechar MLX Swift para crear aplicaciones que se ejecuten de forma nativa en todo el ecosistema de Apple, desde macOS hasta iOS. La compatibilidad multiplataforma sirve como un diferenciador clave, ya que permite que el código escrito para una MacBook Pro se implemente en un iPad Pro con una modificación mínima. La documentación de Apple detalla esta integración:
“MLX funciona con todos los sistemas de silicio de Apple y, con la última versión beta de macOS, ahora aprovecha los aceleradores neuronales en el nuevo chip M5, introducido en la nueva MacBook Pro de 14 pulgadas. Los aceleradores neuronales proporcionan operaciones dedicadas de multiplicación de matrices, que son críticas para muchas cargas de trabajo de aprendizaje automático, y permiten experiencias de inferencia de modelos aún más rápidas en el silicio de Apple”.
Estratégicamente, el software push se alinea con iniciativas más amplias, incluida la iniciativa de backend CUDA que Apple ha apoyado silenciosamente. Al habilitar un”puente unidireccional”para que el código MLX se ejecute en hardware Nvidia, Apple está posicionando su marco como un entorno de desarrollo viable que puede escalar a clústeres de centros de datos si es necesario.
Sin embargo, el enfoque principal sigue siendo la ejecución local. La falta de soporte de GPU externa en Apple Silicon significa que los desarrolladores dependen completamente de la arquitectura de memoria unificada interna, lo que hace que la eficiencia del marco MLX sea fundamental para el rendimiento.
La disrupción del’clúster Mac’: desafiando el centro de datos
Si bien los chips M5 individuales ofrecen una potencia local significativa, un nuevo desarrollo en la comunidad de código abierto está desafiando el modelo de centro de datos tradicional. Nuevas herramientas de código abierto como el software de agrupación en clústeres ExoLabs ahora permiten a los usuarios encadenar varios Mac Studios a través de Thunderbolt 5, creando un clúster de inferencia distribuido capaz de ejecutar modelos a gran escala.
Esta capacidad de agrupación en clústeres podría ampliarse para admitir modelos tan grandes como el nuevo modelo Kimi K2 Thinking, una arquitectura MoE de 1 billón de parámetros. Al agrupar la memoria unificada de múltiples chips M5 Ultra o Max, estos clústeres pueden superar las limitaciones de VRAM de las GPU de consumo único.
Los investigadores de Apple destacan la eficiencia de este enfoque y señalan que “el M5 reduce el tiempo de generación del primer token a menos de 10 segundos para una arquitectura densa de 14 B, y a menos de 3 segundos para una MoE de 30 B, lo que ofrece un rendimiento sólido para estas arquitecturas en una MacBook Pro”.
Eficiencia energética Los argumentos son particularmente convincentes para los laboratorios de investigación y las empresas más pequeñas. Un grupo de cuatro Mac Studios consume menos de 500 vatios, una fracción de la energía requerida para un rack de servidores Nvidia H100 comparable.
Aunque la latencia sobre Thunderbolt 5 no puede igualar la velocidad de las interconexiones NVLink patentadas de Nvidia, la configuración ofrece una solución de”IA soberana”para organizaciones que requieren privacidad de datos y no pueden depender de la inferencia basada en la nube. Esta democratización de la inferencia de clase de supercomputación representa un cambio significativo en cómo se pueden implementar modelos grandes fuera de los centros de datos de hiperescala.