Na de onthulling in oktober van zijn M5-silicium heeft Apple nu de architecturale blauwdrukken vrijgegeven voor de ‘Neural Accelerator’ van de chip, een speciale GPU-component die is ontworpen om de dominantie van Nvidia op het gebied van lokale AI-workloads uit te dagen.
De architectuur is vandaag gedetailleerd beschreven in een nieuw technisch rapport en maakt gebruik van het bijgewerkte MLX machine learning-framework om tot een 4x snellere ‘time-to-first-token’ (TTFT)-inferentie te leveren in vergelijking met de M4.
Deze onthulling transformeert wat aanvankelijk een marketingbulletpoint was in een gedocumenteerde hardwarecapaciteit, en bevestigt dat de geheugenbandbreedte van 153 GB/s en de gespecialiseerde matrixeenheden van de M5 specifiek zijn ontworpen om de geheugenknelpunten te doorbreken die de uitvoering van grote taalmodellen (LLM) op consumentenapparaten teisteren.
In de M5: de neurale acceleratorarchitectuur
In plaats van uitsluitend te vertrouwen op de ruwe kloksnelheid, hebben de ingenieurs van Apple de GPU-kernen in de M5 fundamenteel opnieuw ontworpen met gespecialiseerde’neurale accelerators’. Deze eenheden zijn speciaal gebouwd om de compacte matrixvermenigvuldigingsoperaties aan te kunnen die ten grondslag liggen aan moderne generatieve AI.
Bij de onthulling van de M5-chip positioneerden leidinggevenden het silicium als een sprong voorwaarts, maar de technische details bleven ondoorzichtig tot de release van het officiële technische rapport van Apple.
Bijgewerkt technisch rapport artikelen verduidelijken dat de accelerators specifiek gericht zijn op de ‘pre-fill’-fase van inferentie – de rekenintensieve eerste stap waarbij het model de prompt van de gebruiker verwerkt.
Bij de lancering omschreef Johny Srouji, Senior VP Hardware Technologies van Apple, de mogelijkheid als een structurele verschuiving, waarbij hij opmerkte dat “M5 de volgende grote sprong in AI-prestaties voor Apple-silicium inluidt. Met de introductie van neurale versnellers in de GPU levert M5 een enorme impuls aan AI werklast.”
Cruciaal is dat de prestatiewinst niet voor alle taken gelijk is. Terwijl de pre-fill-fase een aanzienlijke verbetering van vier keer kent dankzij de nieuwe rekeneenheden, blijft de daaropvolgende fase voor het genereren van tokens beperkt door hoe snel gegevens door het systeem kunnen bewegen. Zoals uitgelegd in het officiële technische rapport:
“Volgens LLM-conclusie is het genereren van het eerste token rekengebonden en wordt volledig gebruik gemaakt van de neurale versnellers. Het genereren van volgende tokens wordt begrensd door geheugenbandbreedte, in plaats van door rekenvermogen.
Op de architecturen die we in dit bericht hebben getest, biedt de M5 een prestatieverbetering van 19-27% vergeleken met de M4, dankzij de grotere geheugenbandbreedte (120 GB/s voor de M4, 153 GB/s voor de M5, wat 28% hoger is).
Wat betreft de geheugenvoetafdruk kan de MacBook Pro 24 GB gemakkelijk een 8B in BF16-precisie of een 30B MoE 4-bit gekwantiseerd bevatten, waardoor de werklast voor beide architecturen onder de 18 GB blijft.”
Een dergelijke ongelijkheid benadrukt het dubbele karakter van het upgradepad van de M5. De geheugenbandbreedte, nu geklokt op 153 GB/s, vertegenwoordigt een toename van 28% ten opzichte van de 120 GB/s van de M4, wat direct correleert met de waargenomen toename van 19-27% in de generatiesnelheid.
Voor ontwikkelaars betekent dit dat de M5 bijzonder bedreven is in het verwerken van complexe prompts met een lange context, waarbij de initiële verwerkingstijd het belangrijkste knelpunt is. Met 24 GB aan uniforme geheugencapaciteit maakt het systeem de uitvoering van substantiële modellen mogelijk, zoals een 8B parametermodel met BF16-precisie of een 30B Mixture of Experts (MoE)-model in 4-bit kwantisering, volledig op het apparaat.
Volgens het onderzoeksteam van Apple “bieden de Neural Accelerators speciale matrixvermenigvuldigingsoperaties, die cruciaal zijn voor veel machine learning-workloads, en maken ze nog snellere modelinferentie-ervaringen mogelijk op Apple-silicium.”
Het silicium ontsluiten: MLX Framework Evolution
Naast het silicium zelf is het softwareverhaal geëvolueerd om te passen bij de mogelijkheden van de hardware. Om de nieuwe Neural Accelerators te kunnen gebruiken, moeten ontwikkelaars updaten naar versie 0.30.0 van het MLX-framework, Apple’s open-source array-bibliotheek ontworpen voor unified memory-architecturen.
Documentatie geeft aan dat volledige ondersteuning voor deze functies”macOS 26.2″vereist, een versienummer dat waarschijnlijk verwijst naar een interne build of een typefout voor de komende bètaversie van macOS 16.2 (Tahoe). Een dergelijke voorwaarde onderstreept de nauwe koppeling tussen de OS-kernel en de metalen prestatie-shaders die de versnellers aansturen.
Met de bijgewerkte stapel beweert Apple dat”De GPU Neural Accelerators schitteren met MLX op ML-workloads met grote matrixvermenigvuldigingen, wat een snelheid tot 4x oplevert vergeleken met een M4-basislijn voor time-to-first-token in taalmodelinferentie.”
Ontwikkelaars kunnen ook MLX Swift om applicaties te bouwen die native in het hele Apple-ecosysteem draaien, van macOS tot iOS. Compatibiliteit tussen platforms vormt een belangrijk onderscheidend kenmerk, waardoor code die voor een MacBook Pro is geschreven, met minimale aanpassingen op een iPad Pro kan worden geïmplementeerd. De documentatie van Apple beschrijft deze integratie:
“MLX werkt met alle Apple Silicon-systemen, en met de nieuwste bètaversie van macOS profiteert het nu van de Neural Accelerators in de nieuwe M5-chip, geïntroduceerd in de nieuwe 14-inch MacBook Pro. De Neural Accelerators bieden speciale matrixvermenigvuldigingsbewerkingen, die van cruciaal belang zijn voor veel machine learning-workloads, en maken nog snellere modelinferentie-ervaringen op Apple Silicon mogelijk.”
Strategisch gezien is de software-push sluit aan bij bredere initiatieven, waaronder het CUDA-backend-initiatief dat Apple stilletjes heeft gesteund. Door een’eenrichtingsbrug’mogelijk te maken voor het uitvoeren van MLX-code op Nvidia-hardware, positioneert Apple zijn raamwerk als een levensvatbare ontwikkelomgeving die indien nodig kan worden geschaald naar datacenterclusters.
De primaire focus blijft echter op lokale uitvoering. Het ontbreken van externe GPU-ondersteuning op Apple Silicon betekent dat ontwikkelaars volledig afhankelijk zijn van de interne, uniforme geheugenarchitectuur, waardoor de efficiëntie van het MLX-framework van cruciaal belang is voor de prestaties.
De disruptie van de’Mac Cluster’: een uitdaging voor het datacenter
Hoewel individuele M5-chips aanzienlijke lokale kracht bieden, vormt een nieuwe ontwikkeling in de open-sourcegemeenschap een uitdaging voor het traditionele datacentermodel. Nieuwe open-source tools zoals de ExoLabs clusteringsoftware stellen gebruikers nu in staat om meerdere Mac Studios aan elkaar te koppelen via Thunderbolt 5, waardoor een gedistribueerd inferentiecluster ontstaat dat grootschalige modellen kan draaien.
Deze clustermogelijkheid kan worden geschaald om modellen te ondersteunen die zo groot zijn als het nieuwe Kimi K2 Thinking-model, een MoE-architectuur met 1 biljoen parameters. Door het verenigde geheugen van meerdere M5 Ultra-of Max-chips te bundelen, kunnen deze clusters de VRAM-beperkingen van afzonderlijke consumenten-GPU’s omzeilen.
De onderzoekers van Apple benadrukken de efficiëntie van deze aanpak en merken op dat”De M5 de tijd tot de eerste tokengeneratie onder de 10 seconden duwt voor een compacte 14B-architectuur, en onder 3 seconden voor een 30B MoE, wat sterke prestaties levert voor deze architecturen op een MacBook Pro.”
Energie-efficiëntie argumenten zijn vooral overtuigend voor onderzoekslaboratoria en kleinere ondernemingen. Een cluster van vier Mac Studios verbruikt minder dan 500 watt, een fractie van het vermogen dat nodig is voor een vergelijkbaar Nvidia H100-serverrack.
Hoewel de latentie via Thunderbolt 5 niet kan tippen aan de snelheid van Nvidia’s eigen NVLink-verbindingen, biedt de opstelling een’soevereine AI’-oplossing voor organisaties die gegevensprivacy nodig hebben en niet kunnen vertrouwen op cloudgebaseerde inferentie. Een dergelijke democratisering van de gevolgtrekkingen uit de supercomputerklasse vertegenwoordigt een aanzienlijke verschuiving in de manier waarop grote modellen kunnen worden ingezet buiten hyperscale datacenters.