Para entrenar modelos de IA con billones de parámetros, Microsoft confirmó el 13 de noviembre que está construyendo una”superfábrica de IA”que abarcará todo el continente. El proyecto vincula centros de datos especializados en una única supercomputadora virtual, una estrategia diseñada para superar las limitaciones locales de energía y tierra.
El primer nodo de esta red de alta velocidad ya está en línea, conectando las nuevas instalaciones”Fairwater”de la compañía en Wisconsin y Atlanta, Georgia.
Al distribuir cargas de trabajo masivas de IA a lo largo de cientos de millas, Microsoft apunta a crear la infraestructura fundamental necesaria para la próxima ola de desarrollo de inteligencia artificial, tratando de manera efectiva a múltiples estados como una sola computadora computacional. recurso.
Una”superfábrica de IA”que abarca todos los estados
El ambicioso proyecto de Microsoft redefine el concepto de campus de centro de datos. En lugar de concentrar toda su computación en un área geográfica, la empresa está creando una red distribuida que funciona como una máquina cohesiva.
Este enfoque aborda directamente los principales obstáculos en el escalamiento de la infraestructura de IA: asegurar suficiente terreno y, lo que es más importante, megavatios de energía en un solo lugar.
La primera conexión, que une Wisconsin y Atlanta a lo largo de una distancia de 700 millas, ya está operativa, lo que demuestra la viabilidad del concepto. Esta medida es una parte central de la intensa carrera armamentista de la IA, donde controlar la computación es primordial.
Microsoft Atlanta Datacen (Imagen: Microsoft)
Esta estrategia permite a Microsoft ubicar centros de datos en ubicaciones con condiciones más favorables, como terrenos más baratos, climas más fríos o acceso a energía renovable, sin sacrificar el rendimiento de un único clúster monolítico.
“Se trata de construir una red distribuida que pueda actuar como una supercomputadora virtual para abordar los mayores desafíos del mundo de diferentes maneras. algo que simplemente no se podría hacer en una sola instalación”, afirmó Alistair Speirs, director general de Microsoft centrado en la infraestructura de Azure, en un anuncio de la empresa.
Microsoft Wisconsin Datacenter a través de Microsoft (Imagen: Microsoft)
La escala de esta visión es inmensa, ya que la compañía cree que los futuros modelos de IA requerirán potencia computacional mucho más allá de lo que cualquier sitio puede proporcionar.”La cantidad de infraestructura necesaria ahora para entrenar estos modelos no es solo un centro de datos, ni dos, sino múltiples”, explicó Mark Russinovich, CTO de Microsoft Azure.
Esta construcción interna representa una parte de una estrategia dual, que complementa acuerdos masivos de subcontratación como su reciente contrato de 9.7 mil millones de dólares con IREN para asegurar capacidad de GPU externa.
La arquitectura Fairwater: diseñada específicamente para billones de parámetros Modelos
Dentro de cada instalación de Fairwater, Microsoft ha diseñado una arquitectura novedosa optimizada exclusivamente para el entrenamiento de IA a gran escala. Estos no son centros de datos tradicionales diseñados para ejecutar millones de aplicaciones de clientes independientes.
En cambio, están diseñados específicamente para ejecutar un trabajo masivo y complejo en todo el hardware disponible. Los edificios en sí cuentan con un diseño de dos pisos, una opción que aumenta la densidad de la GPU y reduce la distancia física que deben recorrer las señales, minimizando la latencia.
Esta integración vertical de hardware e instalaciones se alinea con el impulso más amplio de Microsoft para controlar toda su pila de IA, incluido su reciente movimiento para licenciar los diseños de chips personalizados de OpenAI.
Esta densidad crea un calor inmenso, que Microsoft aborda con un avanzado sistema de refrigeración líquida directo al chip. El diseño de circuito cerrado consume “casi cero agua” en sus operaciones, una ganancia de eficiencia significativa.
En su sitio de Atlanta, Microsoft implementará los potentes sistemas de rack GB200 NVL72 de Nvidia, con cada rack capaz de consumir más de 140 kilovatios y alberga 72 GPU.
Toda esta pila de hardware está diseñada para ofrecer el máximo rendimiento, lo que garantiza que ningún componente se convierta en un cuello de botella.”Liderar en IA no se trata solo de agregar más GPU, sino de construir la infraestructura que las haga funcionar juntas como un solo sistema”, afirmó Scott Guthrie, vicepresidente ejecutivo de Nube + IA de Microsoft.
Tejer una computadora del tamaño de un continente con redes de alta velocidad
Conectar centros de datos a cientos de kilómetros de distancia introduce importantes desafíos de latencia, pero es la clave para desbloquear esta nueva escala. Microsoft ha creado una “Red de área amplia de IA”(AI WAN) dedicada para salvar estas distancias.
Esta red troncal privada está construida sobre una asombrosa 120.000 millas de nuevas, cable de fibra óptica dedicado, lo que garantiza que los datos de entrenamiento de IA no compitan con el tráfico general de Internet.
El objetivo es hacer que los sitios geográficamente separados se comporten como si estuvieran en un solo edificio, manteniendo las costosas GPU en uso constante.
Esto requiere hardware de red especializado y de alto ancho de banda capaz de mantener el rendimiento a grandes distancias.
Si bien Microsoft no ha nombrado oficialmente a su proveedor, la industria ha producido varias soluciones poderosas para este problema exacto. El ASIC Jericho4 de Broadcom, por ejemplo, fue diseñado para este tipo de interconexión de centro de datos a centro de datos (DCI).
“Si está ejecutando un grupo de capacitación y desea crecer más allá de la capacidad de un solo edificio, somos la única solución válida”, señaló Amir Sheffer de Broadcom.
Del mismo modo, Cisco ha desarrollado su enrutador 8223 para conectar centros de datos de IA a una distancia de hasta 1000 kilómetros, y Microsoft fue nombrado uno de los primeros evaluadores de la tecnología.
Un informe reciente agrega que la red interna utiliza un servidor Ethernet de dos niveles que ejecuta el sistema operativo SONiC (software para redes abiertas en la nube) de Microsoft, con conectividad de 800 Gbps por enlace.
Dada la profunda asociación de Microsoft con Nvidia, la plataforma Spectrum-XGS del gigante de las GPU también es un fuerte contendiente para la estructura que conecta estos sitios. Este enfoque de hardware de múltiples proveedores es fundamental para evitar el bloqueo, una estrategia que Microsoft está siguiendo en todo su conjunto, incluidos los esfuerzos para hacer que el software CUDA de Nvidia funcione en chips AMD de la competencia.
Al dominar tanto la construcción física como la compleja red que lo une todo, Microsoft se está posicionando para controlar la capa fundamental para la próxima era del desarrollo de la IA.