Google memperkenalkan VaultGemma, model AI mercu tanda yang dilatih untuk privasi

Google telah mengeluarkan VaultGemma, model terbuka parameter 1 bilion baru yang menandakan langkah penting ke hadapan dalam privasi-pemeliharaan

ai. Diumumkan pada 12 September oleh penyelidikan dan pasukan DeepMind, VaultGemma adalah model terbesar jenisnya

href=”https://research.google/blog/vaultgemma-the-worlds-most-capable-differential-vivate-llm”sasaran=”_ blank”> pelepasan vaultgemma

Ia mempunyai 26 lapisan dan menggunakan perhatian pelbagai pertanyaan (MQA).

sasaran=”_ kosong”> Keturunan kecerunan stokastik yang berbeza (DP-SGD) dengan jaminan rasmi (ε ≤ 2.0, δ ≤ 1.1e-10). Teknik ini menambah bunyi yang dikalibrasi semasa latihan untuk melindungi contoh latihan individu.

Perkembangan model dipandu oleh satu set novel”undang-undang skala DP”, kata Google. Penyelidikan ini menyediakan rangka kerja untuk mengimbangi perdagangan kompleks antara kuasa pengiraan, anggaran privasi, dan utiliti model. Latihan telah dijalankan pada kelompok besar 2048 TPUV6E cip.

Harga privasi: Prestasi dan Benchmarks Terdapat perdagangan yang wujud antara kekuatan jaminan privasi dan utiliti model.

Pada tanda aras akademik yang standard, vaultgemma yang kurang baik berbanding dengan model yang tidak swasta, seperti GEMMA-3.

Perbandingan menggambarkan bahawa kaedah latihan swasta hari ini menghasilkan model dengan utiliti yang signifikan, walaupun jurang kekal. Ia menyoroti jalan yang jelas untuk penyelidikan masa depan.

Meletakkan jaminan kepada ujian: Tiada hafalan yang dapat dikesan

Pengesahan muktamad pendekatan VaultGemma terletak pada perlawanannya terhadap hafalan. Google menjalankan ujian empirikal untuk mengukur kecenderungan model untuk menghasilkan semula urutan dari data latihannya, satu kaedah yang terperinci dalam laporan teknikal Gemma sebelumnya.

Model ini diminta dengan awalan dari korpus latihan untuk melihat apakah ia akan menghasilkan akhiran yang sepadan. Hasilnya adalah muktamad: Vaultgemma tidak mempamerkan hafalan yang dapat dikesan, sama ada tepat atau anggaran. Penemuan ini sangat mengesahkan keberkesanan proses pra-latihan DP-SGD.

Dengan sumber terbuka model dan metodologinya, Google bertujuan untuk menurunkan halangan untuk membina teknologi privasi-pemeliharaan. Siaran ini menyediakan komuniti dengan garis dasar yang kuat untuk generasi akan datang AI yang selamat, bertanggungjawab, dan swasta.