O Google está aumentando sua aposta pelo domínio do hardware de IA. Na quinta-feira, a empresa anunciou que seu chip personalizado mais poderoso, o Ironwood TPU, agora está em disponibilidade geral para seus clientes de nuvem.

Construído para lidar com a crescente demanda por inferência de IA, este novo processador atende o trabalho em tempo real por trás dos chatbots. Para apoiar esses sistemas de IA, o Google também lançou novos processadores Axion econômicos para tarefas de computação diárias.

Esse movimento estratégico tem como alvo clientes importantes como a Anthropic e aumenta o desafio do Google para a líder de mercado Nvidia na batalha crítica pela infraestrutura de IA.

Ironwood: uma potência de silício personalizada para a era da inferência

Para impulsionar a próxima geração de modelos de IA, o Google está apostando em uma estratégia verticalmente integrada.

No centro desse esforço está sua unidade de processamento Tensor de sétima geração, Ironwood, que foi lançada pela primeira vez em abril.

Agora passando para disponibilidade geral, o chip foi desenvolvido especificamente para o que o Google chama de “era da inferência”, a mudança de treinar modelos massivos para implantá-los para interações úteis e responsivas em escala.

O Ironwood oferece um salto significativo no desempenho, projetado para lidar com as demandas complexas de treinamento e atendimento aos maiores modelos de IA da atualidade.

De acordo com o Google, a nova arquitetura oferece um Melhoria de desempenho máximo de 10x em relação ao antecessor TPU v5p e desempenho mais de quatro vezes melhor por chip em comparação com a geração anterior do Trillium.

Em sua configuração maior, um sistema Ironwood pode atingir impressionantes 42,5. exaFLOPS do poder computacional do FP8, uma métrica essencial para a aritmética de baixa precisão que domina as cargas de trabalho modernas de IA.

Esse poder bruto é aliado ao foco na eficiência; O Ironwood possui o dobro do desempenho por watt do Trillium, tornando-o o chip com maior eficiência energética do Google até o momento.

Google TPU Peak Flops Per Watt (Fonte: Google)

Esse nível de desempenho só é útil se puder ser escalonado, e a arquitetura do Ironwood for projetada para uma operação massiva e coesa.

Um único “superpod” do Ironwood pode conectar até 9.216 chips individuais, permitindo que funcionem como um único e unificado supercomputador. A base deste sistema é uma malha Inter-Chip Interconnect (ICI) de alta velocidade que fornece até 9,6 terabits por segundo de largura de banda entre chips, criando uma densa topologia 3D Torus.

Essa rede permite que os chips acessem um conjunto colossal e compartilhado de 1,77 petabytes de memória de alta largura de banda (HBM), eliminando os gargalos de dados que podem prejudicar trabalhos de IA em grande escala.

Para conectar esses clusters de chips, o Google emprega uma rede dinâmica de switch de circuito óptico (OCS). Essa malha reconfigurável é fundamental para a escala e a resiliência.

Conforme detalhado na visão geral técnica da empresa, o OCS pode ignorar opticamente qualquer hardware com falha e estabelecer circuitos novos e completos conectando apenas unidades íntegras.

Google Arquitetura Ironwood TPU (Fonte: Google)

Para clientes que executam trabalhos de treinamento que podem durar semanas, essa tolerância dinâmica a falhas é um recurso crítico que evita interrupções dispendiosas e maximiza o tempo de atividade produtivo de todo o sistema.

Crucialmente, esse hardware avançado está profundamente integrado a uma pilha de software projetada em conjunto, baseada em uma filosofia de otimização em nível de sistema. Em sua essência está o compilador Accelerated Linear Algebra (XLA) do Google, que traduz código de alto nível de estruturas populares como JAX e PyTorch em instruções de máquina altamente otimizadas.

O compilador é explicitamente projetado para direcionar o hardware especializado da TPU, incluindo suas densas Matrix Multiply Units (MXUs) e Vector Processing Units (VPUs). Ao fundir automaticamente as operações em kernels eficientes, o XLA oferece um poderoso desempenho”pronto para uso”.

Para inferência, a empresa otimizou ainda mais a pilha permitindo mecanismos de serviço de última geração, como vLLM no Ironwood, por meio de um novo back-end unificado, tornando seu imenso poder mais acessível aos desenvolvedores que implantam modelos em produção.

O impulso de hardware do Google é um componente de uma estratégia de infraestrutura muito maior e multifacetada.

Em relatórios recentes, destacamos alguns dos planos ambiciosos do Google, desde um data center de IA geopoliticamente estratégico na Ilha Christmas, na Austrália, até o Projeto Moonshot Suncatcher, que visa construir data centers alimentados por TPU no espaço.

As iniciativas destaque os recursos colossais necessários para permanecer na vanguarda da IA.

[conteúdo incorporado]

Expansão da Axion: redefinindo a computação de uso geral

Além dos aceleradores especializados para IA, os aplicativos modernos exigem uma espinha dorsal poderosa e eficiente para cargas de trabalho diárias.

O Google está abordando isso com uma expansão de seu portfólio personalizado de CPU Axion baseado em Arm. A empresa anunciou que suas novas máquinas virtuais N4A estão agora em pré-visualização, juntamente com a próxima prévia do C4A metal, suas primeiras instâncias bare-metal baseadas em Arm.

Projetados para oferecer desempenho de preço superior, esses processadores lidam com tarefas de uso geral que suportam aplicativos de IA, incluindo preparação de dados, microsserviços em contêineres e serviço web.

Google CPU Axion (Fonte: Google)

O feedback inicial dos clientes destaca ganhos significativos. Sergei Koren, arquiteto-chefe de infraestrutura da ZoomInfo, elogiou as novas instâncias, afirmando:”Em nossa prévia das novas instâncias N4A, medimos uma melhoria de 60% no preço-desempenho para essas principais cargas de trabalho em comparação com suas contrapartes baseadas em x86.”

Da mesma forma, o Vimeo relatou uma melhoria de 30% no desempenho de sua carga de trabalho principal de transcodificação de vídeo em comparação com VMs baseadas em x86.

O Google está posicionando o Axion. como uma alternativa clara e mais eficiente aos processadores tradicionais.

De acordo com Mark Lohmeyer, vice-presidente e gerente geral de IA e infraestrutura de computação do Google Cloud, “eles terão desempenho 50% maior do que processadores comparáveis da geração x86 e eficiência energética 60% melhor do que instâncias comparáveis baseadas em x86″. validação para o silício personalizado do Google. O laboratório de IA, desenvolvedor da família de modelos Claude, planeja acessar até 1 milhão de TPUs, sinalizando forte confiança nas capacidades da plataforma tanto para treinamento quanto para inferência.

James Bradbury, chefe de computação da empresa, explicou o benefício: “As melhorias da Ironwood no desempenho de inferência e na escalabilidade do treinamento nos ajudarão a escalar com eficiência, mantendo a velocidade e a confiabilidade que nossos clientes esperam.”

No entanto, esse grande acordo existe dentro de uma realidade complexa e multinuvem. Embora a parceria seja uma vitória significativa para o Google, os relatórios esclarecem que a Anthropic mantém uma estratégia de infraestrutura diversificada, com a Amazon Web Services permanecendo seu principal provedor de nuvem.

Isso reflete uma tendência mais ampla do setor, em que os principais laboratórios de IA estão evitando a dependência de um único fornecedor, uma estratégia vista anteriormente quando a OpenAI começou a usar o Google Cloud para complementar sua infraestrutura principal do Microsoft Azure.

Desdobrando-se em meio a uma intensa corrida armamentista de IA, os esforços de silício personalizado do Google visam diretamente desafiar o mercado da Nvidia. domínio. É necessário um investimento impressionante para competir.

Para atender à crescente demanda, o Google recentemente elevou o limite máximo de sua previsão de gastos de capital para o ano de US$ 85 bilhões para US$ 93 bilhões.

Esse imenso compromisso financeiro demonstra que o controle do hardware subjacente agora é visto como uma vantagem competitiva crítica.

Ao lançar as TPUs Ironwood altamente especializadas e as CPUs Axion eficientes e de uso geral, o Google está apresentando uma solução abrangente e inovadora. solução projetada em conjunto.

A empresa aposta que oferecer aos clientes uma pilha de hardware otimizada e econômica, do chip ao data center, será a chave para vencer a próxima fase da revolução da IA.

Categories: IT Info