Google merangkul filosofi”lebih sedikit lebih banyak”dengan rilis AI terbarunya, meluncurkan model terbuka Gemma 3 270m hiper-efisien. Dengan hanya 270 juta parameter, model ringkas ini direkayasa bagi pengembang untuk membuat aplikasi khusus dan disesuaikan yang dapat berjalan langsung pada perangkat seperti smartphone atau bahkan di dalam browser web.
Tujuannya adalah untuk memungkinkan kelas baru dari solusi AI cepat, pribadi, dan berbiaya rendah dengan menyediakan”alat yang tepat untuk pekerjaan”. Alih-alih mengandalkan sistem berbasis cloud besar-besaran, Gemma 3 270m berfokus pada efisiensi daya yang ekstrem untuk tugas-tugas yang ditentukan dengan baik, membuat AI canggih lebih mudah diakses untuk komputasi di perangkat dan edge.
Rilis Gemma 3 270m adalah tambahan terbaru untuk Google Memperluas”GemMaverse”dari model terbuka . Ini mengikuti debut awal seri Gemma 3 pada bulan Maret, rilis versi QAT untuk GPU konsumen pada bulan April, dan peluncuran Gemma 3n-First pada Juni. SRC=”Data: Image/SVG+XML; Nitro-EMPTY-ID=MTY0NZOXMDU3-1; BASE64, PHN2ZYB2AWV3QM94PSIWIDAGMTI4MCA3MJ Aiihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9iMh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Strategi ini selaras dengan pergeseran industri yang lebih luas ke arah model bahasa kecil (SLM). Perusahaan seperti Microsoft dengan seri PHI-nya, Mistral AI dengan model 3 kecilnya, dan memeluk wajah dengan model SMOLVLM semuanya berinvestasi banyak dalam AI yang efisien.
Peluncuran ini mewakili poros strategis dalam perlombaan senjata AI, memprioritaskan presisi bedah daripada Brute Force. Ini menggarisbawahi tren industri yang berkembang di mana model yang lebih kecil dan khusus menjadi alat penting untuk penyebaran praktis, dunia nyata.
Alat yang tepat untuk pekerjaan”filosofi
href=”https://developers.goOgleblog.com/en/introducing-gemma-3-270m”target=”_ blank”> Google memposisikan Gemma 3 270m Bukan sebagai saingan untuk model lean, purpose umum, tetapi sebagai fondasi berkualitas tinggi untuk apa yang disebutnya sebagai”fleet dari a”fleet.”Pengumuman resmi perusahaan memanggil prinsip teknik klasik: Anda tidak akan menggunakan palu untuk menggantung bingkai foto. Model ini mewujudkan alat”yang tepat untuk pekerjaan yang tepat untuk pekerjaan, dengan model yang baik, dengan model yang baik, dengan engine-def-tuning-don. Fungsi di mana kecepatan dan efektivitas biaya adalah yang terpenting. Google mengidentifikasi kasus penggunaan yang ideal seperti analisis sentimen, ekstraksi entitas, perutean permintaan, penulisan kreatif, pemeriksaan kepatuhan, dan mengonversi teks yang tidak terstruktur menjadi data terstruktur. Tujuannya adalah untuk memberdayakan pengembang untuk membangun dan menggunakan beberapa model khusus, masing-masing dilatih secara ahli untuk tugas yang berbeda, tanpa biaya penghalang yang terkait dengan sistem yang lebih besar.
Kekuatan pendekatan khusus ini telah ditunjukkan di dunia nyata. Google menyoroti karya adaptif ML dengan SK Telecom, di mana model Gemma yang disesuaikan ditugaskan dengan moderasi konten multibahasa yang bernuansa. Hasilnya sangat jelas: model khusus tidak hanya bertemu tetapi mengungguli sistem kepemilikan yang jauh lebih besar pada tugas spesifiknya. Kisah sukses ini berfungsi sebagai cetak biru praktis untuk bagaimana pengembang dapat memanfaatkan efisiensi Gemma 3 270m.
Dengan memulai dengan basis yang ringkas dan mampu, pengembang dapat membangun sistem produksi yang lebih cepat dan lebih murah untuk dioperasikan. Strategi ini secara langsung menargetkan meningkatnya kebutuhan AI yang hemat biaya yang dapat digunakan pada skala tanpa menimbulkan biaya inferensi besar-besaran. Ukuran kecil model ini memungkinkan untuk iterasi yang cepat, memungkinkan eksperimen penyetelan yang diselesaikan diselesaikan dalam beberapa jam, bukan hari. Untuk peran tertentu yang sangat terspesialisasi, seperti npc game roleplaying atau bot jurnal kustom, kemampuan model untuk”melupakan”pengetahuan umum melalui overfitting menjadi fitur, memastikan ia tetap fokus pada fokus yang ditunjuk. Pukulan teknis, hasil dari pertukaran arsitektur yang disengaja. 270 juta parameter model didistribusikan secara tidak konvensional: 170 juta substansial didedikasikan untuk lapisan penyematannya, hanya menyisakan 100 juta untuk blok transformator inti. Pilihan desain ini secara langsung memungkinkan fitur menonjol model: kosakata besar 256.000 yang diperkirakan.
Kosakata besar ini adalah kunci dari kecakapan spesialisasi. Ini memungkinkan model untuk menangani token langka, spesifik, dan teknis dengan kesetiaan tinggi, menjadikannya fondasi yang sangat kuat untuk menyempurnakan domain niche seperti hukum, kedokteran, atau keuangan. Dengan memahami jargon khusus industri sejak awal, itu membutuhkan lebih sedikit data pelatihan untuk menjadi ahli. Ini dilengkapi dengan jendela konteks token 32K yang terhormat, yang memungkinkannya untuk memproses permintaan dan dokumen yang substansial.
Untuk memastikan kegunaan langsung, Google merilis pos pemeriksaan pra-terlatih dan disesuaikan dengan instruksi. Perusahaan ini jelas bahwa Gemma 3 270m tidak dirancang untuk kasus penggunaan percakapan yang kompleks dan terbuka seperti chatbot. Sebaliknya, versi yang disesuaikan dengan instruksi direkayasa untuk mengikuti petunjuk dan perintah terstruktur secara efektif keluar dari kotak, memberikan basis yang andal untuk kustomisasi lebih lanjut.
Desain yang kuat ini divalidasi oleh kinerjanya pada tolok ukur industri. Pada tes Ifeval, yang mengukur kemampuan model untuk mengikuti instruksi yang dapat diverifikasi, Gemma 3 270m mencapai skor 51,2 persen. Skor ini lebih tinggi dari model ringan lainnya yang memiliki lebih banyak parameter, menunjukkan pukulan jauh di atas beratnya. Meskipun dapat diprediksi jauh dari model miliar-parameter, kinerjanya sangat kompetitif untuk ukuran fraksinya.
Efisiensi ekstrem untuk ai-perangkat
Keuntungan utama dari Gemma 3 270m adalah konsumsi daya rendah. Tes internal pada Pixel 9 Pro menunjukkan model Int4-kuantisasi menggunakan hanya 0,75% dari baterai perangkat selama 25 percakapan, menjadikannya model GEMMA Google yang paling hemat daya hingga saat ini.
Efisiensi ekstrem ini sangat penting untuk aplikasi on-perangkat di mana masa pakai baterai dan kinerja termal adalah yang terpenting. Ini juga memastikan privasi pengguna, karena informasi sensitif dapat diproses secara lokal tanpa pernah dikirim ke cloud.
Untuk memfasilitasi ini, Google menyediakan pos pemeriksaan kuantisasi-sadar-terlatih (QAT) yang siap diproduksi. Ini memungkinkan pengembang untuk menjalankan model pada presisi int4 dengan degradasi kinerja minimal, fitur penting untuk digunakan pada perangkat keras yang dibatasi sumber daya.
Untuk pengembang, Gemma 3 270m adalah