Google telah mengambil langkah ke arah membuat model AI yang lebih berkebolehan dijalankan pada perkakasan sehari-hari dengan melepaskan versi yang dioptimumkan khas dari keluarga Gemma 3.

mengecilkan permintaan ingatan mereka. Hasil utama ialah model yang canggih, termasuk varian Gemma 3 27b yang besar, kini boleh beroperasi pada kad grafik peringkat pengguna yang popular, memindahkan mereka keluar dari domain eksklusif pemecut pusat data mewah. Pelan itu kini direalisasikan dengan siaran QAT ini.

Pelepasan mengikuti debut awal siri Gemma 3 pada 12 Mac,. Pelancaran itu memperkenalkan model yang merangkumi 1 bilion hingga 27 bilion parameter, memuji prestasi yang kukuh-model 27B menjaringkan baik dalam perbandingan seperti LMSys Chatbot Arena, model ranking sistem melalui keutamaan manusia-tetapi pergantungan mereka pada format BF16 bermakna keperluan perkakasan yang signifikan, sering memerlukan sistem H100. Smarts

Teknik utama adalah latihan kuantisasi (QAT). Tidak seperti hanya memampatkan model selepas latihan selesai (kuantisasi pasca latihan, atau PTQ), QAT mengintegrasikan kekangan ketepatan berangka yang lebih rendah terus ke dalam gelung latihan itu sendiri, mensimulasikan operasi ini semasa proses. Jawatan blog, dengan ketara mengurangkan penurunan kualiti biasa yang berkaitan dengan kuantisasi, memetik pengurangan sebanyak 54% dalam penurunan kebingungan (ukuran seberapa baik model meramalkan teks) untuk”Q4_0 [format] menggunakan Llama.cpp Evaluation Perbalahan”berbanding dengan kaedah standard. Ia adalah teknik yang ditetapkan yang disokong oleh kerangka utama

Pengurangan ini bermakna versi Int4 14.1 GB sekarang sesuai dengan vram 24GB yang terdapat pada kad seperti NVIDIA RTX 3090. GPU seperti komputer riba NVIDIA RTX 4060), 4B dari 8 GB hingga 2.6 GB, dan 1B kecil dari 2 GB hingga 0.5 GB. Walaupun penjimatan ini besar,

sumber: Google

Google dengan bijak menambah dalam pengumumannya:”Angka ini hanya mewakili VRAM yang diperlukan untuk memuatkan berat model. Menjalankan model juga memerlukan VRAM tambahan untuk cache KV, yang menyimpan maklumat mengenai perbualan yang berterusan dan bergantung pada panjang konteks yang lebih tinggi, Berat. Penjimatan memori berasaskan QAT ini melengkapkan kecekapan seni bina yang sedia ada di Gemma 3 yang direka untuk mengurangkan pertumbuhan cache KV.

Keupayaan di luar penjanaan teks Berdasarkan , Model Gemma 3 QAT mengekalkan ciri-ciri dari pendahuluan BF16 mereka, termasuk keupayaan untuk memproses input imej di samping teks dan mengekalkan tetingkap konteks yang dipertanggungjawabkan oleh Gemma cache semasa interaksi panjang, mengikut model Laporan teknikal . Sokongan bahasa yang luas, yang meliputi lebih daripada 140 bahasa mengikut laporan terdahulu, juga dijangka akan membawa.

Berjalan pada mesin anda sendiri: Pengalaman dan Hurdles

Pengurangan VRAM membuka pintu untuk menjalankan model-model ini pada perkakasan yang dimiliki secara meluas. Simon Willison berkongsi pengalaman awal positif, menjalankan model 27b Qat melalui ollama (menggunakan sekitar 22GB RAM sistem) dan mlx Walau bagaimanapun. Seperti biasa dengan siaran baru, sesetengah pengguna pada mulanya Hugging face sasaran=”_ blank”> kaggle , dilatih menggunakan infrastruktur TPU dalamannya (TPUV4P, V5P, V5E). Secara kritis, mereka direka untuk integrasi dengan alat pemaju yang popular. Sokongan asli wujud dalam ollama, lm studio , mlx (untuk apple silicon), Google sendiri Gemma.cpp href=”https://ai.google.dev/gemma/gemmaverse”target=”_ blank”> Gemmaverse ,”di mana penyumbang komuniti seperti bartowski , ggml

Kecekapan menolak di seluruh industri

Pelepasan Gemma 3 QAT datang di tengah-tengah tumpuan industri yang lebih luas untuk menjadikan model AI lebih cekap dan mudah diakses. Hanya sehari sebelum pengumuman Google, Microsoft Research melancarkan Bitnet B1.58 2B4T.

Bitnet mewakili strategi yang berbeza, menggunakan latihan asli pada ketepatan 1.58-bit yang sangat rendah dan terutamanya mensasarkan kecekapan CPU. Walaupun Microsoft mendakwa hasil yang mengagumkan, mencapai mereka memerlukan menggunakan spesifik c ++ rangka kerja (bitnet.cpp) Ini berbeza dengan pendekatan Google menggunakan format INT4 yang lebih standard dan memanfaatkan alat yang sedia ada, yang diterima pakai secara meluas untuk kesimpulan GPU, yang berpotensi menawarkan laluan penerimaan yang lebih mudah bagi pemaju yang memberi tumpuan kepada menjalankan model pada kad grafik pengguna.