Kasunod ng Oktubre na pag-unve ng M5 Silicon nito, inilabas na ngayon ng Apple ang mga blueprints ng arkitektura para sa”neural accelerator”ng chip, isang dedikadong sangkap na GPU na idinisenyo upang hamunin ang pangingibabaw ng NVIDIA sa mga lokal na AI workload.”Oras-to-first-token”(TTFT) Pagkakaisa kumpara sa M4. mga aparato. Ang mga GPU cores sa loob ng M5 upang isama ang dalubhasang”neural accelerator.”Ang mga yunit na ito ay itinayo ng layunin upang hawakan ang siksik na mga operasyon ng pagpaparami ng matrix na sumasailalim sa mga modernong generative ai. target=”_ blangko”> opisyal na teknikal na ulat ng Apple. Iyon ang”M5 ushers sa susunod na malaking paglukso sa pagganap ng AI para sa Apple Silicon. Sa pagpapakilala ng mga neural accelerator sa GPU, naghahatid ang M5 ng isang malaking tulong sa mga workload ng AI.”Habang ang yugto ng pre-punan ay nakakakita ng isang makabuluhang pagpapabuti ng 4x dahil sa mga bagong yunit ng compute, ang kasunod na yugto ng henerasyon ng token ay nananatiling napipilitan sa kung gaano kabilis ang data ay maaaring lumipat sa system. Tulad ng ipinaliwanag sa Opisyal na Teknikal na Ulat:
bandwidth (120GB/s para sa M4, 153GB/s para sa M5, na kung saan ay 28% na mas mataas). ng landas ng pag-upgrade ng M5. Ang bandwidth ng memorya, na na-clocked ngayon sa 153GB/s, ay kumakatawan sa isang 28% na pagtaas sa 120GB/s ng M4, na direktang nakakaugnay sa naobserbahang 19-27% na pagpapalakas sa bilis ng henerasyon. Sa pamamagitan ng 24GB ng pinag-isang kapasidad ng memorya, pinapayagan ng system ang pagpapatupad ng mga malaking modelo, tulad ng isang modelo ng parameter na 8B sa katumpakan ng BF16 o isang 30B na halo ng mga eksperto (MOE) na modelo sa 4-bit na dami, ganap na on-aparato. Mga Karanasan sa Pag-iintindi ng Model sa Apple Silicon.”Upang magamit ang mga bagong neural accelerator, dapat i-update ng mga developer sa bersyon 0.30.0 ng MLX Framework , ang open-source array na array ng array ng memorya ng memorya ng arkitektura. Ang dokumentasyon ay nagpapahiwatig na ang buong suporta para sa mga tampok na ito ay nangangailangan ng”macOS 26.2,”isang numero ng bersyon na malamang na tumutukoy sa isang panloob na build o isang typo para sa paparating na macOS 16.2 (Tahoe) beta. Ang nasabing isang kinakailangan ay binibigyang diin ang masikip na pagkabit sa pagitan ng OS kernel at ang mga shaders ng pagganap ng metal na nagtutulak sa mga accelerator. Pagkakaiba-iba.”Ang pagiging tugma ng cross-platform ay nagsisilbing isang pangunahing pagkakaiba-iba, na nagpapahintulot sa code na isinulat para sa isang MacBook Pro na ma-deploy sa isang iPad Pro na may kaunting pagbabago. Detalye ng dokumentasyon ng Apple ang pagsasama na ito:
Silicon.”Sa pamamagitan ng pagpapagana ng isang”one-way na tulay”para sa MLX code na tumakbo sa NVIDIA hardware, pinoposisyon ng Apple ang balangkas nito bilang isang mabubuhay na kapaligiran sa pag-unlad na maaaring masukat sa mga kumpol ng data center kung kinakailangan.
Gayunpaman, ang pangunahing pokus ay nananatili sa lokal na pagpapatupad. Ang kawalan ng panlabas na suporta ng GPU sa Apple Silicon ay nangangahulugan na ang mga developer ay ganap na nakasalalay sa panloob na pinag-isang arkitektura ng memorya, na ginagawa ang kahusayan ng’mac cluster’na pagkagambala: ang paghamon sa data center modelo. Ang mga bagong tool na open-source tulad ng ang exolabs clustering software Paganahin ngayon ang mga gumagamit na mag-chain ng maramihang mga studio ng MAC sa pamamagitan ng thunderbolt 5, na lumilikha ng isang ipinamamahagi na cluster ng cluster na may kakayahang tumakbo sa mga malalaking modelo. Kimi K2 Pag-iisip Model, isang arkitektura ng 1-trilyong parameter ng MOE. Sa pamamagitan ng pag-pool ng pinag-isang memorya ng maraming M5 ultra o max chips, ang mga kumpol na ito ay maaaring makaligtaan ang mga limitasyon ng VRAM ng mga solong consumer GPU. MacBook Pro.”Ang isang kumpol ng apat na MAC Studios ay kumonsumo ng mas mababa sa 500 watts, isang maliit na bahagi ng kapangyarihan na kinakailangan para sa isang maihahambing na NVIDIA H100 server rack. Ang nasabing democratization ng supercomputing-class inference ay kumakatawan sa isang makabuluhang paglipat sa kung gaano kalaki ang mga modelo na maaaring ma-deploy sa labas ng mga sentro ng data ng hyperscale.