Setelah peluncuran silikon M5 pada bulan Oktober, Apple kini telah merilis cetak biru arsitektur untuk “Neural Accelerator” pada chip tersebut, yaitu komponen GPU khusus yang dirancang untuk menantang dominasi Nvidia dalam beban kerja AI lokal.

Dirinci dalam laporan teknis baru hari ini, arsitektur tersebut memanfaatkan kerangka pembelajaran mesin MLX yang diperbarui untuk menghasilkan peningkatan kecepatan hingga 4x dalam inferensi “time-to-first-token”(TTFT) dibandingkan dengan M4.

Pengungkapan ini mengubah apa yang awalnya merupakan poin pemasaran menjadi kemampuan perangkat keras yang terdokumentasi, mengonfirmasi bahwa bandwidth memori 153 GB/dtk dan unit matriks khusus pada M5 dirancang khusus untuk memecahkan kemacetan memori yang mengganggu eksekusi model bahasa besar (LLM) pada perangkat konsumen.

Di dalam M5: Arsitektur Neural Accelerator

Daripada hanya mengandalkan kecepatan clock mentah, para insinyur Apple telah mendesain ulang inti GPU dalam M5 secara mendasar untuk menyertakan “Akselerator Neural” khusus. Unit-unit ini dibuat khusus untuk menangani operasi perkalian matriks padat yang mendukung AI generatif modern.

Dalam peluncuran chip M5, para eksekutif memposisikan silikon sebagai sebuah lompatan ke depan, namun spesifikasi teknisnya tetap tidak jelas hingga laporan teknis resmi Apple dirilis.

Makalah teknis yang diperbarui memperjelas bahwa akselerator secara khusus menargetkan fase inferensi “pra-pengisian”—langkah awal yang intensif secara komputasi saat model memproses perintah pengguna.

Saat peluncuran, Johny Srouji, Senior VP of Hardware Technologies Apple, menggambarkan kemampuan tersebut sebagai perubahan struktural, dengan menyatakan bahwa “M5 mengantarkan lompatan besar berikutnya dalam kinerja AI untuk silikon Apple. Dengan diperkenalkannya Neural Accelerators di GPU, M5 memberikan hasil yang lebih baik. peningkatan besar pada beban kerja AI.”

Yang terpenting, peningkatan kinerja tidak seragam di semua tugas. Meskipun fase pra-pengisian mengalami peningkatan 4x yang signifikan karena unit komputasi baru, fase pembuatan token berikutnya masih dibatasi oleh seberapa cepat data dapat berpindah melalui sistem. Seperti yang dijelaskan dalam laporan teknis resmi:

“Dalam inferensi LLM, pembuatan token pertama terikat pada komputasi, dan memanfaatkan sepenuhnya Akselerator Neural. Pembuatan token berikutnya dibatasi oleh bandwidth memori, bukan oleh kemampuan komputasi.
 
Pada arsitektur yang kami uji dalam postingan ini, M5 memberikan peningkatan kinerja sebesar 19-27% dibandingkan dengan M4, berkat bandwidth memorinya yang lebih besar (120 GB/dtk untuk M4, 153 GB/dtk untuk M5, yang berarti 28% lebih tinggi).
 
Mengenai jejak memori, MacBook Pro 24 GB dapat dengan mudah menampung 8B dalam presisi BF16 atau 30B MoE 4-bit terkuantisasi, sehingga menjaga beban kerja inferensi di bawah 18 GB untuk kedua arsitektur ini.”

Perbedaan tersebut menyoroti sifat ganda dari jalur peningkatan M5. Bandwidth memori, yang kini memiliki clock 153 GB/dtk, menunjukkan peningkatan sebesar 28% dibandingkan M4 yang sebesar 120 GB/dtk, berkorelasi langsung dengan peningkatan kecepatan pembangkitan sebesar 19-27% yang diamati.

Bagi pengembang, hal ini berarti M5 sangat mahir dalam menangani perintah yang kompleks dan konteks panjang yang mana waktu pemrosesan awal merupakan penghambat utama. Dengan kapasitas memori terpadu sebesar 24 GB, sistem ini memungkinkan eksekusi model substansial, seperti model parameter 8B dengan presisi BF16 atau model Mixture of Experts (MoE) 30B dalam kuantisasi 4-bit, seluruhnya di perangkat.

Menurut tim peneliti Apple, “Akselerator Neural menyediakan operasi perkalian matriks khusus, yang sangat penting untuk banyak beban kerja pembelajaran mesin, dan memungkinkan pengalaman inferensi model yang lebih cepat pada Silikon Apple.”

Membuka Kunci Silikon: Evolusi Kerangka MLX

Di luar silikon itu sendiri, kisah perangkat lunak telah berkembang agar sesuai dengan kemampuan perangkat keras. Untuk memanfaatkan Neural Accelerator baru, developer harus memperbarui ke kerangka kerja MLX versi 0.30.0, pustaka array sumber terbuka Apple yang dirancang untuk arsitektur memori terpadu.

Dokumentasi menunjukkan bahwa dukungan penuh untuk fitur-fitur ini memerlukan “macOS 26.2″, nomor versi yang mungkin mengacu pada build internal atau kesalahan ketik untuk macOS 16.2 (Tahoe) beta mendatang. Prasyarat tersebut menggarisbawahi hubungan yang erat antara kernel OS dan shader kinerja logam yang menggerakkan akselerator.

Dengan tumpukan yang diperbarui, Apple mengklaim bahwa “Akselerator Neural GPU bersinar dengan MLX pada beban kerja ML yang melibatkan perkalian matriks besar, menghasilkan kecepatan hingga 4x dibandingkan dengan dasar M4 untuk token waktu ke pertama dalam inferensi model bahasa.”

Pengembang juga dapat memanfaatkan MLX Swift untuk membangun aplikasi yang berjalan secara native di seluruh ekosistem Apple, mulai dari macOS hingga iOS. Kompatibilitas lintas platform berfungsi sebagai pembeda utama, memungkinkan kode yang ditulis untuk MacBook Pro diterapkan di iPad Pro dengan sedikit modifikasi. Dokumentasi Apple merinci integrasi ini:

“MLX berfungsi dengan semua sistem silikon Apple, dan dengan rilis beta macOS terbaru, MLX kini memanfaatkan Akselerator Neural dalam chip M5 baru, yang diperkenalkan di MacBook Pro 14 inci baru. Akselerator Neural menyediakan operasi perkalian matriks khusus, yang sangat penting untuk banyak beban kerja pembelajaran mesin, dan memungkinkan pengalaman inferensi model yang lebih cepat pada silikon Apple.”

Secara strategis, dorongan perangkat lunak ini selaras dengan inisiatif yang lebih luas, termasuk inisiatif backend CUDA yang diam-diam didukung oleh Apple. Dengan mengaktifkan “jembatan satu arah”agar kode MLX dapat berjalan di perangkat keras Nvidia, Apple memposisikan kerangka kerjanya sebagai lingkungan pengembangan yang layak dan dapat diskalakan ke cluster pusat data jika diperlukan.

Namun, fokus utama tetap pada eksekusi lokal. Kurangnya dukungan GPU eksternal pada Apple Silicon berarti bahwa pengembang sepenuhnya bergantung pada arsitektur memori terpadu internal, sehingga efisiensi kerangka MLX sangat penting untuk kinerja.

Gangguan’Mac Cluster’: Menantang Pusat Data

Meskipun masing-masing chip M5 menawarkan kekuatan lokal yang signifikan, perkembangan baru dalam komunitas sumber terbuka menantang model pusat data tradisional. Alat sumber terbuka baru seperti perangkat lunak pengelompokan ExoLabs kini memungkinkan pengguna untuk menyatukan beberapa Mac Studios melalui Thunderbolt 5, sehingga menciptakan kluster inferensi terdistribusi yang mampu menjalankan model berskala besar.

Kemampuan pengelompokan ini dapat diperluas untuk mendukung model sebesar model Kimi K2 Thinking yang baru, yaitu arsitektur MoE dengan parameter 1 triliun. Dengan menggabungkan memori terpadu dari beberapa chip M5 Ultra atau Max, cluster ini dapat melewati batasan VRAM pada GPU konsumen tunggal.

Para peneliti Apple menyoroti efisiensi pendekatan ini, dengan menyatakan bahwa “M5 mendorong generasi time-to-first-token di bawah 10 detik untuk arsitektur 14B yang padat, dan di bawah 3 detik untuk 30B MoE, sehingga memberikan kinerja yang kuat untuk arsitektur ini di MacBook Pro.”

Argumen efisiensi daya adalah sangat menarik untuk laboratorium penelitian dan perusahaan kecil. Sebuah cluster yang terdiri dari empat Mac Studios mengkonsumsi kurang dari 500 watt, hanya sebagian kecil dari daya yang diperlukan untuk rak server Nvidia H100 yang sebanding.

Meskipun latensi pada Thunderbolt 5 tidak dapat menandingi kecepatan interkoneksi NVLink milik Nvidia, pengaturan ini menawarkan solusi “AI yang berdaulat” untuk organisasi yang memerlukan privasi data dan tidak dapat mengandalkan inferensi berbasis cloud. Demokratisasi inferensi kelas superkomputer menunjukkan perubahan signifikan dalam penerapan model besar di luar pusat data berskala besar.

Categories: IT Info