Dopo la presentazione di ottobre del suo silicio M5, Apple ha ora rilasciato i progetti architettonici per il”Neural Accelerator”del chip, un componente GPU dedicato progettato per sfidare il dominio di Nvidia nei carichi di lavoro IA locali.
Descritta in dettaglio in un nuovo rapporto tecnico oggi, l’architettura sfrutta il framework di machine learning MLX aggiornato per fornire una velocità fino a 4 volte superiore nell’inferenza”time-to-first-token”(TTFT) rispetto al M4.
Questa divulgazione trasforma quello che inizialmente era un punto elenco di marketing in una capacità hardware documentata, confermando che la larghezza di banda della memoria da 153 GB/s e le unità a matrice specializzata dell’M5 sono progettate specificamente per rompere i colli di bottiglia della memoria che affliggono l’esecuzione del Large Language Model (LLM) sui dispositivi consumer.
All’interno dell’M5: l’architettura dell’acceleratore neurale
Invece di fare affidamento esclusivamente sulla velocità di clock pura, gli ingegneri di Apple hanno radicalmente riprogettato i core della GPU all’interno dell’M5 per includere”acceleratori neurali”specializzati. Queste unità sono costruite appositamente per gestire le operazioni di moltiplicazione della matrice densa che sono alla base della moderna intelligenza artificiale generativa.
Nella presentazione del chip M5, i dirigenti hanno considerato il silicio come un balzo in avanti, ma le specifiche tecniche sono rimaste oscure fino al rilascio del rapporto tecnico ufficiale di Apple.
I documenti tecnici aggiornati chiariscono che gli acceleratori mirano specificamente alla fase di inferenza di”pre-riempimento”, la fase iniziale ad alta intensità di calcolo in cui il modello elabora la richiesta dell’utente.
Al momento del lancio, Johny Srouji, vicepresidente senior delle tecnologie hardware di Apple, ha definito la capacità come un cambiamento strutturale, sottolineando che”M5 inaugura il prossimo grande passo avanti nelle prestazioni dell’intelligenza artificiale per il silicio Apple. Con l’introduzione degli acceleratori neurali nella GPU, M5 offre un enorme impulso ai carichi di lavoro dell’intelligenza artificiale.”
Fondamentalmente, i miglioramenti in termini di prestazioni non sono uniformi in tutte le attività. Mentre la fase di pre-compilazione vede un significativo miglioramento di 4 volte grazie alle nuove unità di calcolo, la successiva fase di generazione dei token rimane vincolata dalla velocità con cui i dati possono spostarsi attraverso il sistema. Come spiegato nel rapporto tecnico ufficiale:
“Nell’inferenza LLM, la generazione del primo token è vincolata al calcolo e sfrutta appieno gli acceleratori neurali. La generazione di token successivi è limitata dalla larghezza di banda della memoria, piuttosto che dalla capacità di calcolo.
Sulle architetture che abbiamo testato in questo post, l’M5 fornisce un aumento delle prestazioni del 19-27% rispetto all’M4, grazie alla sua maggiore larghezza di banda della memoria (120 GB/s per l’M4, 153 GB/s per l’M5, che è superiore del 28%).
Per quanto riguarda l’ingombro della memoria, il MacBook Pro da 24 GB può facilmente contenere un 8B in precisione BF16 o un 30B MoE a 4 bit quantizzato, mantenendo il carico di lavoro di inferenza sotto i 18 GB per entrambe queste architetture.”
Tale disparità evidenzia la duplice natura del percorso di aggiornamento dell’M5. La larghezza di banda della memoria, ora con clock a 153 GB/s, rappresenta un aumento del 28% rispetto ai 120 GB/s dell’M4, direttamente correlato all’aumento osservato del 19-27% nella velocità di generazione.
Per gli sviluppatori, ciò significa che l’M5 è particolarmente abile nel gestire richieste complesse e con contesti lunghi in cui il tempo di elaborazione iniziale rappresenta il collo di bottiglia principale. Con 24 GB di capacità di memoria unificata, il sistema consente l’esecuzione di modelli sostanziali, come un modello di parametri 8B con precisione BF16 o un modello Mixture of Experts (MoE) da 30B con quantizzazione a 4 bit, interamente sul dispositivo.
Secondo il team di ricerca di Apple,”Gli acceleratori neurali forniscono operazioni di moltiplicazione di matrici dedicate, che sono fondamentali per molti carichi di lavoro di machine learning, e consentono esperienze di inferenza di modelli ancora più veloci su Apple silicio.”
Sbloccare il silicio: l’evoluzione del framework MLX
Al di là del silicio stesso, la storia del software si è evoluta per adattarsi alle capacità dell’hardware. Per utilizzare i nuovi acceleratori neurali, gli sviluppatori devono aggiornare alla versione 0.30.0 del framework MLX, la libreria di array open source di Apple progettata per architetture di memoria unificate.
La documentazione indica che il supporto completo per queste funzionalità richiede”macOS 26.2″, un numero di versione a cui probabilmente fa riferimento a una build interna o a un errore di battitura per la prossima beta di macOS 16.2 (Tahoe). Tale prerequisito sottolinea lo stretto accoppiamento tra il kernel del sistema operativo e gli shader di prestazioni metallici che guidano gli acceleratori.
Con lo stack aggiornato, Apple afferma che”Gli acceleratori neurali GPU brillano con MLX su carichi di lavoro ML che comportano grandi moltiplicazioni di matrici, producendo una velocità fino a 4 volte superiore rispetto a una base M4 per il time-to-first-token nell’inferenza del modello linguistico.”
Gli sviluppatori possono anche sfruttare MLX Swift per creare applicazioni che vengono eseguite in modo nativo nell’intero ecosistema Apple, da macOS a iOS. La compatibilità multipiattaforma funge da elemento chiave di differenziazione, consentendo di distribuire il codice scritto per un MacBook Pro su un iPad Pro con modifiche minime. La documentazione di Apple descrive dettagliatamente questa integrazione:
“MLX funziona con tutti i sistemi di silicio Apple e, con l’ultima versione beta di macOS, ora sfrutta gli acceleratori neurali nel nuovo chip M5, introdotti nel nuovo MacBook Pro da 14 pollici. Gli acceleratori neurali forniscono operazioni di moltiplicazione di matrici dedicate, che sono fondamentali per molti carichi di lavoro di machine learning, e consentono esperienze di inferenza di modelli ancora più veloci sul silicio Apple.”
Dal punto di vista strategico, il push del software si allinea con iniziative più ampie, inclusa l’iniziativa di backend CUDA che Apple ha tranquillamente sostenuto. Abilitando un”ponte unidirezionale”per l’esecuzione del codice MLX sull’hardware Nvidia, Apple sta posizionando il proprio framework come un ambiente di sviluppo praticabile che può scalare fino a cluster di data center, se necessario.
Tuttavia, l’attenzione principale rimane sull’esecuzione locale. La mancanza di supporto GPU esterno su Apple Silicon significa che gli sviluppatori dipendono interamente dall’architettura di memoria interna unificata, rendendo l’efficienza del framework MLX fondamentale per le prestazioni.
L’interruzione del”Mac Cluster”: una sfida per il data center
Mentre i singoli chip M5 offrono una significativa potenza locale, un nuovo sviluppo nella comunità open source sta sfidando il modello tradizionale del data center. Nuovi strumenti open source come il software di clustering ExoLabs ora consentono agli utenti di concatenare più Mac Studios insieme tramite Thunderbolt 5, creando un cluster di inferenza distribuito in grado di eseguire modelli su larga scala.
Questa capacità di clustering potrebbe scalare per supportare modelli grandi quanto il nuovo modello Kimi K2 Thinking, un’architettura MoE da 1 trilione di parametri. Mettendo in comune la memoria unificata di più chip M5 Ultra o Max, questi cluster possono bypassare le limitazioni VRAM delle singole GPU consumer.
I ricercatori di Apple evidenziano l’efficienza di questo approccio, sottolineando che”L’M5 spinge il time-to-first-token generation a meno di 10 secondi per un’architettura densa da 14B e a meno di 3 secondi per un MoE da 30B, offrendo ottime prestazioni per queste architetture su un MacBook Pro.”
Efficienza energetica Gli argomenti sono particolarmente convincenti per i laboratori di ricerca e le piccole imprese. Un cluster di quattro Mac Studios consuma meno di 500 watt, una frazione della potenza richiesta per un server rack Nvidia H100 comparabile.
Sebbene la latenza su Thunderbolt 5 non possa eguagliare la velocità delle interconnessioni NVLink proprietarie di Nvidia, la configurazione offre una soluzione di”AI sovrana”per le organizzazioni che richiedono la privacy dei dati e non possono fare affidamento sull’inferenza basata su cloud. Tale democratizzazione dell’inferenza di classe supercalcolo rappresenta un cambiamento significativo nel modo in cui i modelli di grandi dimensioni possono essere implementati al di fuori dei data center su vasta scala.