Google está intensificando su apuesta por dominar el hardware de IA. El jueves, la empresa anunció que su chip personalizado más potente, el Ironwood TPU, ya está disponible de forma general para sus clientes de la nube.
Creado para manejar la creciente demanda de inferencia de IA, este nuevo procesador aborda el trabajo en tiempo real detrás de los chatbots. Para respaldar estos sistemas de IA, Google también lanzó procesadores Axion nuevos y rentables para las tareas informáticas cotidianas.
Este movimiento estratégico apunta a clientes clave como Anthropic y agudiza el desafío de Google al líder del mercado Nvidia en la batalla crítica por la infraestructura de IA.
Ironwood: una potencia de silicio personalizada para la era de la inferencia
Para impulsar la próxima generación de modelos de IA, Google está apostando por una estrategia integrada verticalmente.
En el centro de este esfuerzo se encuentra su unidad de procesamiento tensorial de séptima generación, Ironwood, que se presentó por primera vez en abril.
Ahora que está disponible de forma general, el chip está diseñado específicamente para lo que Google llama la”era de la inferencia”, el pasar de entrenar modelos masivos a implementarlos para interacciones útiles y receptivas a escala.
Ironwood ofrece un salto significativo en rendimiento, diseñado para manejar las demandas complejas tanto del entrenamiento como del servicio de los modelos de IA más grandes de la actualidad.
Según Google, la nueva arquitectura ofrece una Mejora de rendimiento máximo 10 veces superior a su predecesor TPU v5p y rendimiento por chip más de cuatro veces superior en comparación con la generación Trillium anterior.
En su configuración más grande, un sistema Ironwood puede alcanzar un asombroso 42,5 exaFLOPS de potencia de cálculo del FP8, una métrica esencial para la aritmética de baja precisión que domina las cargas de trabajo modernas de IA.
Esta potencia bruta se combina con un enfoque en la eficiencia; Ironwood cuenta con el doble de rendimiento por vatio que Trillium, lo que lo convierte en el chip con mayor eficiencia energética de Google hasta la fecha.
Google TPU Peak Flops por vatio (Fuente: Google)
Este nivel de rendimiento solo es útil si se puede escalar, y la arquitectura de Ironwood está diseñada para un funcionamiento masivo y cohesivo.
Un solo”superpod”de Ironwood puede vincular hasta 9216 chips individuales, lo que les permite funcionar como un solo”superpod”de Ironwood supercomputadora. La base de este sistema es una estructura de interconexión entre chips (ICI) de alta velocidad que proporciona hasta 9,6 terabits por segundo de ancho de banda entre chips, creando una densa topología Torus 3D.
Esta red permite que los chips accedan a un colosal conjunto compartido de 1,77 petabytes de memoria de alto ancho de banda (HBM), eliminando los cuellos de botella de datos que pueden paralizar los trabajos de IA a gran escala.
Para conectar estos grupos de chips, Google emplea una red dinámica de interruptor de circuito óptico (OCS). Este tejido reconfigurable es clave tanto para la escala como para la resiliencia.
Como se detalla en la descripción técnica de la empresa, el OCS puede evitar ópticamente cualquier hardware defectuoso y establecer circuitos nuevos y completos que conecten solo unidades en buen estado.
Google Arquitectura Ironwood TPU (Fuente: Google)
Para los clientes que ejecutan trabajos de capacitación que pueden durar semanas, esta tolerancia dinámica a fallas es una característica crítica que evita costosas interrupciones y maximiza el tiempo de actividad productiva de todo el sistema.
Lo más importante es que este hardware avanzado está profundamente integrado con una pila de software codiseñada y basada en una filosofía de optimización a nivel de sistema. En su núcleo se encuentra el compilador de álgebra lineal acelerada (XLA) de Google, que traduce código de alto nivel de marcos populares como JAX y PyTorch en instrucciones de máquina altamente optimizadas.
El compilador está diseñado explícitamente para apuntar al hardware especializado de la TPU, incluidas sus densas unidades de multiplicación de matriz (MXU) y unidades de procesamiento vectorial (VPU). Al fusionar automáticamente operaciones en núcleos eficientes, XLA proporciona un potente rendimiento”listo para usar”.
Por inferencia, la empresa ha optimizado aún más la pila al habilitando motores de servicio de última generación como vLLM en Ironwood a través de un nuevo backend unificado, lo que hace que su inmenso poder sea más accesible para los desarrolladores que implementan modelos en producción.
El impulso del hardware de Google es un componente de una estrategia de infraestructura mucho más amplia y multifacética.
En informes recientes hemos destacado algunos de los ambiciosos planes de Google, desde un centro de datos de inteligencia artificial geopolíticamente estratégico en la Isla de Navidad de Australia hasta el Proyecto Suncatcher, cuyo objetivo es construir centros de datos impulsados por TPU en el espacio.
El Las iniciativas resaltan los colosales recursos necesarios para mantenerse a la vanguardia de la IA.
[contenido incorporado]
Expansión de Axion: redefiniendo la computación de uso general
Más allá de los aceleradores especializados para la IA, las aplicaciones modernas requieren una columna vertebral poderosa y eficiente para las cargas de trabajo diarias.
Google está abordando esto con una expansión de su cartera de CPU Axion basada en Arm personalizada. La compañía anunció que sus nuevas máquinas virtuales N4A ya están en versión preliminar, junto con la próxima vista previa de C4A metal, sus primeras instancias bare-metal basadas en Arm.
Diseñados para ofrecer una relación precio-rendimiento superior, estos procesadores manejan las tareas de uso general que respaldan las aplicaciones de IA, incluida la preparación de datos, los microservicios en contenedores y el servicio web.
Google CPU Axion (Fuente: Google)
Los primeros comentarios de los clientes destacan ganancias significativas. Sergei Koren, arquitecto jefe de infraestructura de ZoomInfo, elogió las nuevas instancias y afirmó:”En nuestra vista previa de las nuevas instancias N4A, medimos una mejora del 60 % en precio-rendimiento para estas cargas de trabajo clave en comparación con sus contrapartes basadas en x86″.
Del mismo modo, Vimeo informó una mejora del rendimiento del 30 % para su carga de trabajo de transcodificación de video principal en comparación con las máquinas virtuales basadas en x86.
Google se está posicionando Axion como una alternativa clara y más eficiente a los procesadores tradicionales.
Según Mark Lohmeyer, vicepresidente y director general de IA e infraestructura informática en Google Cloud,”Tendrán un rendimiento un 50 % mayor que los procesadores de generación x86 comparables y una eficiencia energética un 60 % mejor que las instancias comparables basadas en x86″.
Adopciones estratégicas y la carrera armamentista de IA
El enorme crecimiento de Anthropic El compromiso sirve como una poderosa validación para el silicio personalizado de Google. El laboratorio de IA, desarrollador de la familia de modelos Claude, planea acceder a hasta 1 millón de TPU, lo que indica una gran confianza en las capacidades de la plataforma tanto para entrenamiento como para inferencia.
James Bradbury, director de Computación de la empresa, explicó el beneficio:”Las mejoras de Ironwood tanto en el rendimiento de inferencia como en la escalabilidad del entrenamiento nos ayudarán a escalar de manera eficiente y al mismo tiempo mantener la velocidad y confiabilidad que nuestros clientes esperan”.
Sin embargo, este importante acuerdo existe dentro de una realidad compleja de múltiples nubes. Si bien la asociación es una victoria significativa para Google, los informes aclaran que Anthropic mantiene una estrategia de infraestructura diversificada, y Amazon Web Services sigue siendo su principal proveedor de nube.
Refleja una tendencia más amplia de la industria en la que los principales laboratorios de IA están evitando la dependencia de un solo proveedor, una estrategia que se vio anteriormente cuando OpenAI comenzó a utilizar Google Cloud para complementar su infraestructura central de Microsoft Azure.
Desplegándose en medio de una intensa carrera armamentista de IA, los esfuerzos de silicio personalizado de Google están dirigidos directamente a desafiar a Nvidia. dominio del mercado. Se requiere una inversión asombrosa para competir.
Para satisfacer la creciente demanda, Google recientemente aumentó el extremo superior de su pronóstico de gasto de capital para el año a $93 mil millones de $85 mil millones.
Un compromiso financiero tan inmenso demuestra que controlar el hardware subyacente ahora se considera una ventaja competitiva crítica.
Al implementar tanto los TPU Ironwood altamente especializados como las CPU Axion eficientes y de uso general, Google presenta una solución integral, solución codiseñada.
La empresa apuesta a que ofrecer a los clientes una pila de hardware optimizada y rentable, desde el chip hasta el centro de datos, será la clave para ganar la siguiente fase de la revolución de la IA.