Nach der Enthüllung seines M5-Chips im Oktober hat Apple nun die Architekturpläne für den „Neural Accelerator“ des Chips veröffentlicht, eine dedizierte GPU-Komponente, die Nvidias Dominanz bei lokalen KI-Workloads herausfordern soll.

Die Architektur wird heute in einem neuen technischen Bericht detailliert beschrieben und nutzt das aktualisierte MLX-Framework für maschinelles Lernen, um eine bis zu vierfache Beschleunigung der „Time-to-First-Token“ (TTFT)-Inferenz im Vergleich zu zu liefern M4.

Diese Offenlegung wandelt das, was ursprünglich ein Marketing-Kugelpunkt war, in eine dokumentierte Hardwarefähigkeit um und bestätigt, dass die Speicherbandbreite von 153 GB/s und die speziellen Matrixeinheiten des M5 speziell entwickelt wurden, um die Speicherengpässe zu beseitigen, die die Ausführung großer Sprachmodelle (LLM) auf Verbrauchergeräten plagen.

Im Inneren des M5: Die Neural Accelerator Architecture

Anstatt sich nur auf die reine Taktrate zu verlassen, haben die Ingenieure von Apple die GPU-Kerne im M5 grundlegend neu gestaltet und spezielle „Neural Accelerators“ eingebaut. Diese Einheiten wurden speziell für die Verarbeitung dichter Matrixmultiplikationsoperationen entwickelt, die der modernen generativen KI zugrunde liegen.

Bei der Enthüllung des M5-Chips positionierten Führungskräfte das Silizium als einen Sprung nach vorne, aber die technischen Einzelheiten blieben bis zur Veröffentlichung des offiziellen technischen Berichts von Apple.

unklar

Aktualisierte technische Dokumente verdeutlichen, dass die Beschleuniger speziell auf die „Pre-Fill“-Phase der Inferenz abzielen – den rechenintensiven ersten Schritt, bei dem das Modell die Eingabeaufforderung des Benutzers verarbeitet.

Bei der Markteinführung bezeichnete Johny Srouji, Apples Senior VP of Hardware Technologies, die Funktion als einen strukturellen Wandel und stellte fest, dass „M5 den nächsten großen Sprung in der KI-Leistung für Apple-Silizium einläutet. Mit der Einführung neuronaler Beschleuniger in der GPU M5 steigert die KI-Workloads enorm.“

Entscheidend ist, dass die Leistungssteigerungen nicht bei allen Aufgaben einheitlich sind. Während die Vorfüllphase aufgrund der neuen Recheneinheiten eine deutliche Verbesserung um das Vierfache erfährt, bleibt die anschließende Token-Generierungsphase dadurch eingeschränkt, wie schnell sich Daten durch das System bewegen können. Wie im offiziellen technischen Bericht erklärt:

„Bei der LLM-Inferenz ist die Generierung des ersten Tokens rechengebunden und nutzt die Vorteile der Neuralbeschleuniger voll aus. Die Generierung nachfolgender Token ist durch die Speicherbandbreite und nicht durch die Rechenleistung begrenzt.
 
Auf den Architekturen, die wir in diesem Beitrag getestet haben, bietet der M5 dank seiner größeren Speicherbandbreite (120 GB/s für die) eine Leistungssteigerung von 19–27 % im Vergleich zum M4 (M4, 153 GB/s für das M5, was 28 % höher ist).
 
In Bezug auf den Speicherbedarf kann das MacBook Pro 24 GB problemlos 8 B in BF16-Präzision oder 30 B MoE in 4-Bit-Quantisierung aufnehmen, sodass die Inferenzarbeitslast für beide Architekturen unter 18 GB bleibt. Die jetzt mit 153 GB/s getaktete Speicherbandbreite stellt eine Steigerung von 28 % gegenüber den 120 GB/s des M4 dar, was direkt mit der beobachteten Steigerung der Generierungsgeschwindigkeit um 19–27 % korreliert.

Für Entwickler bedeutet dies, dass der M5 besonders gut mit komplexen Eingabeaufforderungen mit langem Kontext umgehen kann, bei denen die anfängliche Verarbeitungszeit den Hauptengpass darstellt. Mit 24 GB einheitlicher Speicherkapazität ermöglicht das System die Ausführung umfangreicher Modelle, wie etwa eines 8B-Parametermodells mit BF16-Präzision oder eines 30B-Mixture-of-Experts-Modells (MoE) mit 4-Bit-Quantisierung, vollständig auf dem Gerät.

Laut Apples Forschungsteam „stellen die Neural Accelerators dedizierte Matrixmultiplikationsoperationen bereit, die für viele Arbeitslasten des maschinellen Lernens von entscheidender Bedeutung sind, und ermöglichen noch schnellere Modellinferenzerfahrungen.“ auf Apple-Chips. Um die neuen Neural Accelerators nutzen zu können, müssen Entwickler auf Version 0.30.0 des MLX-Frameworks aktualisieren, Apples Open-Source-Array-Bibliothek für einheitliche Speicherarchitekturen.

Aus der Dokumentation geht hervor, dass die vollständige Unterstützung dieser Funktionen „macOS 26.2“ erfordert, eine Versionsnummer, die wahrscheinlich ist bezieht sich auf einen internen Build oder einen Tippfehler für die kommende Betaversion von macOS 16.2 (Tahoe). Eine solche Voraussetzung unterstreicht die enge Kopplung zwischen dem Betriebssystemkernel und den Metall-Performance-Shadern, die die Beschleuniger antreiben.

Mit dem aktualisierten Stack behauptet Apple, dass „die GPU-Neuralbeschleuniger mit MLX bei ML-Workloads mit großen Matrixmultiplikationen glänzen und eine bis zu vierfache Beschleunigung im Vergleich zu einer M4-Basislinie für die Time-to-First-Token in der Sprachmodellinferenz ergeben.“

Entwickler können auch MLX Swift zum Erstellen von Anwendungen, die nativ im gesamten Apple-Ökosystem laufen, von macOS bis iOS. Als wesentliches Unterscheidungsmerkmal dient die plattformübergreifende Kompatibilität, die es ermöglicht, für ein MacBook Pro geschriebenen Code mit minimalen Änderungen auf einem iPad Pro bereitzustellen. In der Dokumentation von Apple wird diese Integration detailliert beschrieben:

„MLX funktioniert mit allen Apple-Siliziumsystemen und mit der neuesten Betaversion von macOS nutzt es jetzt die Vorteile der Neuralbeschleuniger im neuen M5-Chip, der im neuen 14-Zoll-MacBook Pro eingeführt wurde. Die Neuralbeschleuniger bieten dedizierte Matrixmultiplikationsoperationen, die für viele maschinelle Lernaufgaben von entscheidender Bedeutung sind, und ermöglichen noch schnellere Modellinferenzerfahrungen auf Apple-Silizium.“

Strategisch gesehen ist der Software-Push steht im Einklang mit umfassenderen Initiativen, einschließlich der CUDA-Backend-Initiative, die Apple stillschweigend unterstützt hat. Durch die Aktivierung einer „einseitigen Brücke“ für die Ausführung von MLX-Code auf Nvidia-Hardware positioniert Apple sein Framework als praktikable Entwicklungsumgebung, die bei Bedarf auf Rechenzentrumscluster skaliert werden kann.

Der Hauptfokus bleibt jedoch auf der lokalen Ausführung. Fehlende externe GPU-Unterstützung auf Apple Silicon bedeutet, dass Entwickler vollständig von der internen Unified-Memory-Architektur abhängig sind, wodurch die Effizienz des MLX-Frameworks entscheidend für die Leistung ist.

Die „Mac-Cluster“-Störung: Herausforderung für das Rechenzentrum

Während einzelne M5-Chips erhebliche lokale Leistung bieten, stellt eine neue Entwicklung in der Open-Source-Community das traditionelle Rechenzentrumsmodell in Frage. Neue Open-Source-Tools wie die ExoLabs-Clustering-Software ermöglichen es Benutzern jetzt, mehrere Mac Studios über Thunderbolt 5 miteinander zu verketten und so einen verteilten Inferenzcluster zu erstellen, der in der Lage ist, groß angelegte Modelle auszuführen.

Diese Clustering-Funktion könnte skaliert werden, um so große Modelle wie das neue Kimi K2 Thinking-Modell, eine MoE-Architektur mit 1 Billion Parametern, zu unterstützen. Durch die Bündelung des einheitlichen Speichers mehrerer M5 Ultra-oder Max-Chips können diese Cluster die VRAM-Einschränkungen einzelner Consumer-GPUs umgehen.

Die Forscher von Apple heben die Effizienz dieses Ansatzes hervor und stellen fest: „Der M5 verkürzt die Zeit bis zur ersten Token-Generierung auf unter 10 Sekunden für eine dichte 14-B-Architektur und auf unter 3 Sekunden für ein 30-B-MoE und bietet so eine starke Leistung für diese Architekturen auf einem MacBook Pro.“

Die Argumente zur Energieeffizienz sind besonders für Forschungslabore und kleinere Unternehmen überzeugend. Ein Cluster aus vier Mac Studios verbraucht weniger als 500 Watt, ein Bruchteil der Leistung, die für ein vergleichbares Nvidia H100-Server-Rack erforderlich ist.

Obwohl die Latenz über Thunderbolt 5 nicht mit der Geschwindigkeit der proprietären NVLink-Verbindungen von Nvidia mithalten kann, bietet das Setup eine „souveräne KI“-Lösung für Unternehmen, die Datenschutz benötigen und sich nicht auf cloudbasierte Schlussfolgerungen verlassen können. Eine solche Demokratisierung der Supercomputing-Klasseninferenz stellt einen bedeutenden Wandel in der Art und Weise dar, wie große Modelle außerhalb von Hyperscale-Rechenzentren eingesetzt werden können.

Categories: IT Info