Google telah mengambil langkah untuk membuat model AI yang lebih mampu dijalankan pada perangkat keras sehari-hari dengan merilis versi yang dioptimalkan secara khusus dari keluarga Gemma 3.

Model menggunakan pelatihan kuantisasi-sadar (QAT) dan menggunakan precision bitker 4-bit6 (Int4)-format numerik hanya menggunakan 4 bit per parameter dengan commoner dengan commoning dengan commons dibandingkan dengan Commony 16-bit dengan numerik yang hanya menggunakan 4 bit per parameter. tuntutan. Hasil utamanya adalah bahwa model canggih, termasuk varian Gemma 3 27b besar, sekarang dapat beroperasi pada kartu grafis tingkat konsumen yang populer, memindahkannya keluar dari domain eksklusif akselerator pusat data kelas atas.

Google telah menandakan niatnya untuk menawarkan versi terkompresi, menjanjikan”Mengurangi ukuran model dan persyaratan komputasi sambil mempertahankan akurat yang tinggi. Rencana itu sekarang direalisasikan dengan pelepasan QAT ini.

Rilis ini mengikuti debut awal seri Gemma 3 pada 12 Maret,. Peluncuran itu memperkenalkan model yang mencakup 1 miliar hingga 27 miliar parameter, dipuji karena kinerja yang kuat-model 27B mendapat skor baik dalam perbandingan seperti LMSys Chatbot Arena, model peringkat sistem melalui preferensi manusia-tetapi ketergantungan mereka pada format BF16 berarti persyaratan perangkat keras yang signifikan, sering membutuhkan sistem h100. Smarts

Teknik utama adalah pelatihan kuantisasi-sadar (QAT). Tidak seperti sekadar mengompresi model setelah pelatihan selesai (kuantisasi pasca-pelatihan, atau PTQ), QAT mengintegrasikan kendala presisi numerik yang lebih rendah secara langsung ke dalam loop pelatihan itu sendiri, mensimulasikan operasi ini selama proses tersebut.

Google menyatakan bahwa qat untuk sekitar 5.000 langkah pelatihan, pada dasarnya mengajarkan model untuk melakukan beberapa bits per angka dari angka dari 5.000 langkah pelatihan, pada dasarnya mengajarkan model untuk melakukan dengan baik menggunakan bits beberapa bit dari angka untuk sekitar 5.000 langkah pelatihan, pada dasarnya mengajarkan model untuk melakukan dengan baik menggunakan bits beberapa bit dari angka dari martm. Secara signifikan mengurangi penurunan kualitas yang biasa terkait dengan kuantisasi, mengutip pengurangan 54% dalam penurunan kebingungan (ukuran seberapa baik model memprediksi teks) untuk”Q4_0 [format] menggunakan evaluasi llama.cpp evaluasi kebingungan”dibandingkan dengan metode standar.

Qat itu sendiri bukan baru; Ini adalah teknik yang ditetapkan yang didukung oleh kerangka kerja utama , tetapi aplikasinya di sini menghasilkan tunjangan praktis.

PRAKTIS TANJUTAN PRAKTIS ADALAH APLIKASI DI SINI MENGETAHUI MANFAAT PRAKTIK.

P> PRAKTIS TANJUTAN PRAKTIS ADALAH AKURNYA DI SINI MEMPERCAYAAN PRAKTIK. parameter. Model Gemma 3 27b melihat jejak beratnya berkurang dari 54 GB (BF16) menjadi 14,1 GB (int4).

Pengurangan ini berarti versi 14,1 GB Int4 sekarang cocok dengan vram 24GB yang ditemukan pada kartu NVIDIA RTX 3090. GPU seperti laptop NVIDIA RTX 4060), 4b dari 8 GB hingga 2,6 GB, dan 1b kecil dari 2 GB hingga 0,5 GB. Sementara penghematan ini substansial,

Sumber: Google

Google dengan bijaksana menambahkan dalam pengumumannya:”Angka ini hanya mewakili VRAM yang diperlukan untuk memuat bobot model. Menjalankan model juga memerlukan VRAM tambahan untuk cache KV, yang menyimpan informasi tentang percakapan yang sedang berlangsung dan tergantung pada panjang konteks”.

Cache KV yang lebih lama menampung perhitungan perantara terkait dengan rugi yang lebih besar, yang tumbuh lebih besar, yang menanam pondok. Penghematan memori berbasis QAT ini melengkapi efisiensi arsitektur yang ada di Gemma 3 yang dirancang untuk mengurangi pertumbuhan cache KV.

Kemampuan di luar generasi teks

Yang penting, peningkatan efisiensi ini tampaknya tidak mengorbankan fungsi inti. Berdasarkan Detail Model , model Gemma 3 QAT mempertahankan fitur dari pendahulunya BF16, termasuk kemampuan untuk memproses input gambar di samping teks dan mempertahankan 128.000-token yang diperluas. Cache kv selama interaksi panjang, menurut model Laporan teknis . Dukungan bahasa luas, yang mencakup lebih dari 140 bahasa menurut laporan sebelumnya, juga diharapkan akan terbawa.

berjalan di mesin Anda sendiri: Pengalaman dan Rintangan

Pengurangan VRAM membuka pintu untuk menjalankan model-model ini pada perangkat keras yang dimiliki secara luas. Simon Willison berbagi pengalaman awal yang positif, menjalankan model QAT 27B melalui ollama (menggunakan sekitar 22GB RAM System-wide) dan mlx pada mesin pribadinya, menemukan versi mlx terasa lebih penguasa saat menggunakan tentang tentang penggunaan saat penggunaan. Namun, benjolan. Seperti halnya dengan rilis baru, beberapa pengguna awalnya LAPORAN> LOVETIONSIONSIPLE> LOVEDIONSIVE> BISKMMA_SLASH_VRAM/”Target=”_ Blank”> LOVEDSIONS> LOKMMA_SLASH_VRAM/”Target=”_ Blank”> Implementasi MLX Studio, meskipun pengembang alat tampaknya membahas masalah ini dengan cepat dengan pembaruan.

Selanjutnya, anggota masyarakat pada platform seperti Reddit mengamati bahwa file GGUF resmi (format umum untuk model terkuantisasi yang digunakan oleh alat seperti llama.cpp) untuk model QAT adalah lebih besar dari teoretis yang diperlukan untuk int4. This was traced to the token embeddings table – which numerically represents words for the model – within the official GGUF files remaining unquantized (at half precision).

Savvy users demonstrated that by manually quantizing this specific table, the file sizes could be reduced further (fitting 12B in under 8GB, 27B under 16GB), potentially enabling use on GPUs with tighter VRAM constraints, albeit dengan modifikasi tidak resmi.

Dukungan dan ketersediaan ekosistem

Google telah membuat model resmi int4 dan q4_0 qat yang tersedia melalui memeluk wajah dan kaggle , dilatih menggunakan infrastruktur tpu internal (tpuv4p, v5) v.e. Yang terpenting, mereka dirancang untuk integrasi dengan alat pengembang populer. Dukungan asli ada di ollama, LM Studio , MLX (untuk Apple Silicon), Google sendiri gemma.cpp (untuk cpu cpu”juga disediakan (melalui format gguf quf). href=”https://ai.google.dev/gemma/gemmaverse”target=”_ blank”> gemmaverse ,”di mana kontributor komunitas seperti bartowski , untloth , dan a a. href=”https://huggingface.co/collections/ggml-org/gemma-3-67d126315ac810df1ad9e913″target=”_ blanko Efisiensi dorongan di seluruh industri

Rilis Gemma 3 QAT hadir di tengah-tengah fokus industri yang lebih luas untuk membuat model AI lebih efisien dan dapat diakses. Sehari sebelum pengumuman Google, Microsoft Research meluncurkan Bitnet B1.58 2B4T.

Bitnet mewakili strategi yang berbeda, menggunakan pelatihan asli pada presisi 1,58-bit yang sangat rendah dan terutama menargetkan efisiensi CPU. Sementara Microsoft mengklaim hasil yang mengesankan, mencapainya mengharuskan menggunakan C ++ Framework (bitnet.cpp) , karena pustaka standar tidak dioptimalkan untuk matematika uniknya. Ini kontras dengan pendekatan Google dalam menggunakan format int4 yang lebih standar dan memanfaatkan alat yang diadopsi secara luas untuk inferensi GPU, berpotensi menawarkan jalur adopsi yang lebih mudah bagi pengembang yang berfokus pada menjalankan model pada kartu grafis konsumen.

Categories: IT Info