Po październikowej prezentacji krzemu M5 firma Apple opublikowała teraz plany architektoniczne „Neural Accelerator”, dedykowanego komponentu GPU zaprojektowanego, aby rzucić wyzwanie dominacji Nvidii w lokalnych obciążeniach AI.

Szczegółowo w nowym raporcie technicznym architektura wykorzystuje zaktualizowaną platformę uczenia maszynowego MLX, aby zapewnić nawet 4-krotne przyspieszenie w porównaniu z wnioskowaniem „time-to-first-token” (TTFT) do M4.

To ujawnienie przekształca to, co początkowo było punktem marketingowym w udokumentowane możliwości sprzętowe, potwierdzając, że przepustowość pamięci 153 GB/s i wyspecjalizowane jednostki matrycy M5 zostały zaprojektowane specjalnie w celu usunięcia wąskich gardeł pamięci, które nękają wykonywanie modelu dużego języka (LLM) na urządzeniach konsumenckich.

Wnętrze M5: architektura akceleratora neuronowego

Zamiast polegać wyłącznie na surowym taktowaniu, inżynierowie Apple zasadniczo przeprojektowali rdzenie GPU w M5, dodając wyspecjalizowane „akceleratory neuronowe”. Jednostki te zostały zaprojektowane specjalnie do obsługi operacji mnożenia gęstej macierzy, które stanowią podstawę współczesnej generatywnej sztucznej inteligencji.

Podczas prezentacji chipa M5 kierownictwo uznało krzem za krok naprzód, ale szczegóły techniczne pozostały niejasne aż do opublikowania oficjalnego raportu technicznego Apple.

Zaktualizowane dokumenty techniczne wyjaśniają, że akceleratory są specjalnie ukierunkowane na fazę wnioskowania „wstępnego wypełnienia” — intensywny obliczeniowo etap początkowy, w którym model przetwarza podpowiedzi użytkownika.

W chwili premiery Johny Srouji, starszy wiceprezes ds. technologii sprzętowych firmy Apple, określił tę możliwość jako zmianę strukturalną, zauważając, że „M5 rozpoczyna kolejny duży skok w wydajności sztucznej inteligencji dla krzemu Apple. Wraz z wprowadzeniem akceleratorów neuronowych w GPU, M5 zapewnia ogromne zwiększenie obciążeń AI.”

Co najważniejsze, wzrost wydajności nie jest jednakowy w przypadku wszystkich zadań. Podczas gdy w fazie wstępnego wypełniania nastąpiła znacząca 4-krotna poprawa dzięki nowym jednostkom obliczeniowym, kolejna faza generowania tokenów pozostaje ograniczona szybkością przesyłania danych przez system. Jak wyjaśniono w oficjalnym raporcie technicznym:

„W wnioskowaniu LLM generowanie pierwszego tokena jest powiązane z obliczeniami i w pełni wykorzystuje akceleratory neuronowe. Generowanie kolejnych tokenów jest ograniczone przepustowością pamięci, a nie możliwościami obliczeniowymi.
 
W architekturach testowanych w tym poście M5 zapewnia wzrost wydajności o 19–27% w porównaniu z M4 dzięki większej przepustowości pamięci (120 GB/s dla M4, 153 GB/s dla M5, czyli o 28% więcej).
 
Jeśli chodzi o wielkość pamięci, MacBook Pro 24 GB może z łatwością pomieścić 8B przy precyzji BF16 lub 4-bitową kwantyzację MoE 30B, utrzymując obciążenie wnioskowania poniżej 18 GB dla obu tych architektur.

Taka rozbieżność podkreśla podwójny charakter ścieżki aktualizacji M5. Przepustowość pamięci, obecnie taktowana na poziomie 153 GB/s, stanowi wzrost o 28% w porównaniu z 120 GB/s M4, co bezpośrednio koreluje z obserwowanym wzrostem szybkości generowania o 19–27%.

Dla programistów oznacza to, że M5 szczególnie dobrze radzi sobie ze złożonymi komunikatami o długim kontekście, gdzie początkowy czas przetwarzania jest głównym wąskim gardłem. Dzięki 24 GB ujednoliconej pamięci system umożliwia wykonywanie istotnych modeli, takich jak model parametrów 8B z precyzją BF16 lub model Mixture of Experts (MoE) 30B w 4-bitowej kwantyzacji, całkowicie na urządzeniu.

Według zespołu badawczego Apple „Akceleratory neuronowe zapewniają dedykowane operacje mnożenia macierzy, które są krytyczne dla wielu obciążeń związanych z uczeniem maszynowym, i umożliwiają jeszcze szybsze wnioskowanie o modelu doświadczenia z krzemem Apple.”

Odblokowanie krzemu: ewolucja platformy MLX

Poza samym krzemem historia oprogramowania ewoluowała, aby dopasować się do możliwości sprzętu. Aby korzystać z nowych akceleratorów neuronowych, programiści muszą zaktualizować do wersję 0.30.0 platformy MLX, biblioteki tablic firmy Apple o otwartym kodzie źródłowym, zaprojektowanej dla ujednoliconych architektur pamięci.

Dokumentacja wskazuje, że pełna obsługa tych funkcji wymaga „macOS 26.2″ – numeru wersji, który prawdopodobnie odnosi się do wewnętrznej kompilacji lub literówki w nadchodzącej wersji beta systemu macOS 16.2 (Tahoe). Taki warunek wstępny podkreśla ścisłe powiązanie między jądrem systemu operacyjnego a metalowymi modułami cieniującymi, które napędzają akceleratory.

W przypadku zaktualizowanego stosu Apple twierdzi, że „akceleratory neuronowe GPU wyróżniają się technologią MLX w przypadku obciążeń ML obejmujących duże mnożenia macierzy, zapewniając nawet 4-krotne przyspieszenie w porównaniu z bazowym M4 w zakresie czasu do pierwszego tokenu przy wnioskowaniu o modelu językowym.”

Programiści mogą również wykorzystać MLX Swift, aby tworzyć aplikacje działające natywnie w całym ekosystemie Apple, od macOS po iOS. Zgodność między platformami stanowi kluczowy wyróżnik, umożliwiając wdrożenie kodu napisanego dla MacBooka Pro na iPadzie Pro przy minimalnych modyfikacjach. Dokumentacja Apple szczegółowo opisuje tę integrację:

„MLX współpracuje ze wszystkimi krzemowymi systemami Apple, a w najnowszej wersji beta systemu macOS wykorzystuje teraz akceleratory neuronowe w nowym chipie M5, wprowadzonym w nowym 14-calowym MacBooku Pro. Akceleratory neuronowe zapewniają dedykowane operacje mnożenia macierzy, które są krytyczne dla wielu obciążeń związanych z uczeniem maszynowym, i umożliwiają jeszcze szybsze wnioskowanie o modelu na krzemie Apple.”

Strategiczne wsparcie oprogramowania jest zgodna z szerszymi inicjatywami, w tym z inicjatywą zaplecza CUDA, którą Apple po cichu wspierał. Umożliwiając „jednokierunkowy most” dla kodu MLX do działania na sprzęcie Nvidia, Apple pozycjonuje swoje środowisko jako realne środowisko programistyczne, które w razie potrzeby można skalować do klastrów centrów danych.

Jednak główny nacisk pozostaje jednak na wykonanie lokalne. Brak obsługi zewnętrznych procesorów graficznych w Apple Silicon oznacza, że ​​programiści są całkowicie zależni od wewnętrznej, zunifikowanej architektury pamięci, co sprawia, że ​​wydajność platformy MLX ma kluczowe znaczenie dla wydajności.

Przełom w „Mac Cluster”: wyzwanie dla centrum danych

Chociaż pojedyncze chipy M5 oferują znaczną moc lokalną, nowe rozwiązania w społeczności open source rzucają wyzwanie tradycyjnemu modelowi centrum danych. Nowe narzędzia typu open source, takie jak oprogramowanie do klastrowania ExoLabs, umożliwiają teraz użytkownikom łączenie wielu komputerów Mac Studios za pośrednictwem Thunderbolt 5, tworząc rozproszony klaster wnioskowania zdolny do uruchamiania modeli na dużą skalę.

Ta funkcja klastrowania może być skalowana w celu obsługi modeli tak dużych jak nowy model Kimi K2 Thinking o architekturze MoE o bilionie parametrów. Łącząc ujednoliconą pamięć wielu układów M5 Ultra lub Max, klastry te mogą ominąć ograniczenia VRAM pojedynczych konsumenckich procesorów graficznych.

Badacze firmy Apple podkreślają efektywność tego podejścia, zauważając, że „M5 skraca czas do wygenerowania pierwszego tokena poniżej 10 sekund w przypadku gęstej architektury 14B i poniżej 3 sekund w przypadku 30B MoE, zapewniając wysoką wydajność dla tych architektur na MacBooku Pro.”

Moc argumenty dotyczące wydajności są szczególnie przekonujące w przypadku laboratoriów badawczych i mniejszych przedsiębiorstw. Klaster czterech komputerów Mac Studio zużywa mniej niż 500 watów, czyli ułamek mocy wymaganej przez porównywalną szafę serwerową Nvidia H100.

Chociaż opóźnienia w przypadku Thunderbolt 5 nie są w stanie dorównać szybkości zastrzeżonych połączeń NVLink firmy Nvidia, konfiguracja oferuje „suwerenne rozwiązanie AI” dla organizacji, które wymagają prywatności danych i nie mogą polegać na wnioskowaniu opartym na chmurze. Taka demokratyzacja wnioskowania klasy superkomputerowej oznacza znaczącą zmianę w sposobie wdrażania dużych modeli poza hiperskalowymi centrami danych.

Categories: IT Info