Após o lançamento de seu silício M5 em outubro, a Apple lançou agora os projetos arquitetônicos do “Neural Accelerator” do chip, um componente de GPU dedicado projetado para desafiar o domínio da Nvidia em cargas de trabalho locais de IA.
Detalhada hoje em um novo relatório técnico, a arquitetura aproveita a estrutura atualizada de aprendizado de máquina MLX para fornecer uma aceleração de até 4x na inferência de “tempo para o primeiro token” (TTFT) em comparação com o M4.
Esta divulgação transforma o que inicialmente era um ponto de marketing em um recurso de hardware documentado, confirmando que a largura de banda de memória de 153 GB/s e as unidades de matriz especializadas do M5 foram projetadas especificamente para quebrar os gargalos de memória que afetam a execução do modelo de linguagem grande (LLM) em dispositivos de consumo.
Por dentro do M5: a arquitetura do acelerador neural
Em vez de confiar apenas na velocidade bruta do clock, os engenheiros da Apple redesenharam fundamentalmente os núcleos da GPU no M5 para incluir “aceleradores neurais” especializados. Essas unidades foram desenvolvidas especificamente para lidar com as densas operações de multiplicação de matrizes que sustentam a IA generativa moderna.
No lançamento do chip M5, os executivos posicionaram o silício como um avanço, mas as especificações técnicas permaneceram opacas até o lançamento do relatório técnico oficial da Apple.
Documentos técnicos atualizados esclarecem que os aceleradores visam especificamente a fase de “pré-preenchimento” da inferência, a etapa inicial computacionalmente intensiva em que o modelo processa o prompt do usuário.
No lançamento, Johny Srouji, vice-presidente sênior de tecnologias de hardware da Apple, enquadrou a capacidade como uma mudança estrutural, observando que “o M5 inaugura o próximo grande salto no desempenho de IA para silício da Apple. proporciona um grande impulso às cargas de trabalho de IA.”
É crucial que os ganhos de desempenho não sejam uniformes em todas as tarefas. Embora a fase de pré-preenchimento apresente uma melhoria significativa de 4x devido às novas unidades de computação, a fase subsequente de geração de token permanece limitada pela rapidez com que os dados podem se mover pelo sistema. Conforme explicado no relatório técnico oficial:
“Na inferência LLM, a geração do primeiro token é limitada pela computação e aproveita ao máximo os aceleradores neurais. A geração de tokens subsequentes é limitada pela largura de banda da memória, e não pela capacidade de computação.
Nas arquiteturas que testamos nesta postagem, o M5 oferece um aumento de desempenho de 19 a 27% em comparação com o M4, graças à sua maior largura de banda de memória (120 GB/s para o M4, 153 GB/s para o M5, o que é 28% maior.
Em relação ao consumo de memória, o MacBook Pro de 24 GB pode facilmente armazenar 8B em precisão BF16 ou 30B MoE quantizado de 4 bits, mantendo a carga de trabalho de inferência abaixo de 18GB para ambas as arquiteturas.”
Tal disparidade destaca a natureza dupla do caminho de atualização do M5. A largura de banda da memória, agora com clock de 153 GB/s, representa um aumento de 28% em relação aos 120 GB/s do M4, correlacionando-se diretamente com o aumento observado de 19-27% na velocidade de geração.
Para os desenvolvedores, isso significa que o M5 é particularmente hábil no tratamento de prompts complexos e de contexto longo, onde o tempo de processamento inicial é o principal gargalo. Com 24 GB de capacidade de memória unificada, o sistema permite a execução de modelos substanciais, como um modelo de parâmetro de 8B com precisão BF16 ou um modelo Mixture of Experts (MoE) de 30B em quantização de 4 bits, inteiramente no dispositivo. Silício da Apple.”
Desbloqueando o silício: evolução da estrutura MLX
Além do silício em si, a história do software evoluiu para corresponder às capacidades do hardware. Para utilizar os novos aceleradores neurais, os desenvolvedores devem atualizar para a versão 0.30.0 da estrutura MLX, a biblioteca de array de código aberto da Apple projetada para arquiteturas de memória unificada.
A documentação indica que o suporte total para esses recursos requer “macOS 26.2″, um número de versão que provavelmente se refere a uma compilação interna ou a um erro de digitação para o próximo macOS 16.2 (Tahoe) beta. Esse pré-requisito ressalta o forte acoplamento entre o kernel do sistema operacional e os shaders de desempenho de metal que acionam os aceleradores.
Com a pilha atualizada, a Apple afirma que “os aceleradores neurais de GPU brilham com MLX em cargas de trabalho de ML que envolvem grandes multiplicações de matrizes, gerando uma aceleração de até 4x em comparação com uma linha de base M4 para o tempo até o primeiro token na inferência de modelo de linguagem.”
Os desenvolvedores também podem aproveitar MLX Swift para criar aplicativos que rodam nativamente em todo o ecossistema Apple, do macOS ao iOS. A compatibilidade entre plataformas serve como um diferencial importante, permitindo que o código escrito para um MacBook Pro seja implantado em um iPad Pro com modificações mínimas. A documentação da Apple detalha essa integração:
“MLX funciona com todos os sistemas de silício da Apple e, com a versão beta mais recente do macOS, agora aproveita as vantagens dos aceleradores neurais no novo chip M5, introduzido no novo MacBook Pro de 14 polegadas. Os aceleradores neurais fornecem operações dedicadas de multiplicação de matrizes, que são essenciais para muitas cargas de trabalho de aprendizado de máquina, e permitem experiências de inferência de modelo ainda mais rápidas no silício da Apple.”iniciativas, incluindo a iniciativa de back-end CUDA que a Apple apoiou discretamente. Ao permitir uma “ponte unidirecional” para o código MLX ser executado em hardware Nvidia, a Apple está posicionando sua estrutura como um ambiente de desenvolvimento viável que pode ser dimensionado para clusters de data center, se necessário.
No entanto, o foco principal permanece na execução local. A falta de suporte de GPU externa no Apple Silicon significa que os desenvolvedores dependem inteiramente da arquitetura de memória unificada interna, tornando a eficiência da estrutura MLX crítica para o desempenho.
A interrupção do ‘cluster Mac’: desafiando o data center
Embora os chips M5 individuais ofereçam potência local significativa, um novo desenvolvimento na comunidade de código aberto está desafiando o modelo tradicional de data center. Novas ferramentas de código aberto, como o software de clustering ExoLabs, agora permitem que os usuários encadeiem vários Mac Studios por meio do Thunderbolt 5, criando um cluster de inferência distribuído capaz de executar modelos em grande escala.
Essa capacidade de cluster pode ser dimensionada para suportar modelos tão grandes quanto o novo modelo Kimi K2 Thinking, uma arquitetura MoE de 1 trilhão de parâmetros. Ao reunir a memória unificada de vários chips M5 Ultra ou Max, esses clusters podem contornar as limitações de VRAM de GPUs de consumidor único.
Os pesquisadores da Apple destacam a eficiência dessa abordagem, observando que “O M5 aumenta o tempo até a geração do primeiro token em menos de 10 segundos para uma arquitetura densa de 14B, e em menos de 3 segundos para um MoE de 30B, proporcionando forte desempenho para essas arquiteturas em um MacBook Pro.”
Argumentos de eficiência de energia são particularmente atraentes para laboratórios de pesquisa e pequenas empresas. Um cluster de quatro Mac Studios consome menos de 500 watts, uma fração da energia necessária para um rack de servidor Nvidia H100 comparável.
Embora a latência do Thunderbolt 5 não possa corresponder à velocidade das interconexões NVLink proprietárias da Nvidia, a configuração oferece uma solução de “IA soberana” para organizações que exigem privacidade de dados e não podem confiar em inferência baseada em nuvem. Essa democratização da inferência de classe de supercomputação representa uma mudança significativa na forma como grandes modelos podem ser implantados fora dos data centers em hiperescala.