Google telah sepenuhnya merilis Gemma 3N, generasi baru model kecerdasan buatan open-source yang dirancang untuk membawa kemampuan multimodal yang kuat langsung ke perangkat konsumen. Dalam langkah yang signifikan untuk mendemokratisasi AI canggih, model-model ini dapat memproses gambar, audio, dan input video untuk menghasilkan teks saat beroperasi pada perangkat keras dengan hanya 2GB memori, secara efektif membuat kompleks AI dari cloud.
rilis, dirinci dalam Panduan Pengembang Resmi , memperkenalkan keluarga model”mobile-first”yang berbeda dengan sistem Gemini yang lebih besar dan lebih besar dari Google. Model-model baru ini tersedia dalam dua ukuran utama, E2B dan E4B, yang menggunakan inovasi arsitektur untuk berjalan dengan jejak memori yang sebanding dengan model yang jauh lebih kecil. Terobosan efisiensi ini berarti pengembang sekarang dapat membangun dan menggunakan aplikasi AI yang canggih dan berkemampuan offline pada beragam perangkat keras sehari-hari, dari smartphone hingga laptop.
Peluncuran mengikuti pratinjau di Google I/O, dan mewakili puncak dari strategi yang dimulai awal tahun ini. Rilis penuh memperkuat dorongan Google untuk memberdayakan komunitas pengembang dengan alat-alat yang sebelumnya merupakan domain pusat data skala besar, secara fundamental mengubah siapa yang dapat dibangun dengan aige cutting-edge.
Di jantung efisiensi Gemma 3n adalah arsitektur baru yang dirancang dari bawah ke atas untuk kinerja di perangkat. Google memperkenalkan apa yang disebutnya matformer, atau transformator matryoshka, arsitektur , yang bersarang model yang lebih kecil, fungsional lengkap dalam model yang lebih besar. Hal ini memungkinkan pengembang untuk menggunakan spektrum ukuran model yang disesuaikan dengan kendala perangkat keras tertentu, dengan Google menyediakan
[konten tertanam] Gemma 3n bukanlah”GemmM bukanlah produk yang mandiri.”Strategi ekosistem ini tampaknya menjadi bagian inti dari pendekatan dual-congred perusahaan untuk pengembangan AI. Menurut Wawancara ventureBeat dengan manajer produk Google Priya Singh, perusahaan melihat terbuka dan ditutupnya sebagai model yang terbuka. Google tidak melihat Gemma dan Gemini sebagai pesaing, lebih banyak dua sisi dari koin yang sama. Perusahaan menganalisis apa yang dibangun pengembang dengan Gemma untuk mengidentifikasi ke mana harus pergi selanjutnya dengan penelitian Frontier. Strategi ini terbukti dalam variasi model bermerek khusus yang dirilis selama setahun terakhir. Ini termasuk TXGEMMA, serangkaian alat untuk penemuan obat yang dibangun pada arsitektur Gemma 2 sebelumnya, dan dolphingemma yang sangat khusus. Yang terakhir ini adalah kolaborasi unik dengan proyek Lumba-lumba Liar untuk menganalisis rekaman lumba-lumba selama beberapa dekade, berusaha menemukan pola dalam komunikasi hewan-tugas yang mendorong batas-batas aplikasi AI. Perspektif yang sebenarnya dari sebuah MONMASA adalah MONGER PROGISTERITAS
uji coba yang sebenarnya dari sebuah uji coba yang sejati adalah kunjungannya. karena kegunaan langsungnya. Pengembang independen Simon Willison memuji sifat komprehensif rilis, menyebutnya”Gemma 3n juga merupakan peluncuran satu hari paling komprehensif yang pernah saya lihat untuk model apa pun.”Dalam pengujian hands-on Detail di blognya , Willison menyoroti dukungan luas, satu harian dari alat populer seperti Ollama dan MLX. Sementara ia berhasil menggunakan satu versi model untuk transkripsi audio, ia juga mencatat beberapa keanehan awal, dengan model gagal menggambarkan dengan benar gambar yang baru saja dihasilkannya. Untuk lebih jauh memacu keterlibatan komunitas semacam ini, Google telah meluncurkan Gemma 3n Impact Challenge , kompetisi dengan hadiah $ 150.000 untuk pengembang yang menggunakan model baru untuk membangun produk untuk barang sosial. Keuntungan arsitektur dan fitur-fitur yang dikuat oleh pengembang oleh pengembang dengan teman-teman didukung oleh teman-teman yang didukung oleh teman-teman yang didukung oleh teman-teman yang didukung oleh teman-teman yang didukung oleh teman-teman yang didukung didukung didukung. Model-model tersebut menampilkan encoder audio canggih berdasarkan model ucapan universal (USM) dan kombinasi vision yang baru pada paijion, pihi pai, mobileNet-v5, yang dapat memproses video hingga 60 punggung ke-60 punggung ke-60 punggung ke-60 punggung ke-60 punggung ke-60 punggung ke-60 punggung ke-60 punggung ke-60 punggung ke-60 punggung ke-60 punggung ke-60 pai. Efisiensi dan kekuasaan telah menghasilkan hasil yang mengesankan di papan peringkat. Varian Gemma 3N E4B yang lebih besar adalah model pertama di bawah 10 miliar parameter untuk mencapai skor lmarena lebih dari 1.300, sebuah tolok ukur yang mengukur kinerja berdasarkan preferensi manusia. Jalur ini menuju kekuatan setempat dengan debutnya pada pon-familes. Dengan merekayasa model multimodal yang kuat yang dapat hidup di perangkat yang digunakan orang setiap hari, Google tidak hanya merilis alat baru tetapi juga membuat pernyataan yang jelas. Langkah ini menantang gagasan bahwa AI mutakhir harus tinggal secara eksklusif di cloud, memberdayakan gelombang baru pengembang untuk membangun generasi berikutnya dari aplikasi yang cerdas, pribadi, dan dapat diakses. ‘Gemmaverse’dan strategi terbuka Google
Perspektif pengembang: KEKUATAN MEVIONAL DAN KOMUNITAS PROKOPERitas
Mengukur: Multimodality dan kompetisi pasar