Google telah merilis VaultGemma, model terbuka parameter 1 miliar baru yang menandai langkah maju yang signifikan dalam privasi mempertahankan

Ai. Diumumkan pada 12 September oleh risetnya dan tim DeepMind, VaultGemma adalah model terbesar dari jenisnya dilatih dari tanah ini diferensial dengan diferensial dengan diferensial dengan diferensial dengan diferensial dengan diferensial dengan diferensial dengan diferensial dengan diferensial dengan diferensial di dalamnya diferensial di dalamnya diferensial dengan alasan diferensial di dalamnya diferensial Up Ground Up Ground Up Difference Up Up Difference Up Up Difference Up Open menjamin bahwa mencegah model menghafal atau membocorkan informasi sensitif dari data pelatihannya-risiko kritis untuk model bahasa besar.

Sementara langkah-langkah privasi menghasilkan pertukaran dalam kinerja mentah, Vaultgemma menetapkan fondasi baru yang kuat untuk mengembangkan AI yang lebih aman.

Model, bobotnya, dan laporan teknis sekarang tersedia secara terbuka untuk para peneliti di vault”href=”https://huggingface.co/google/vaultgemma-1b”target=”_ blank”> memeluk wajah .

Sebuah perbatasan baru dalam privasi AI

The href=”https://research.google/blog/vaultgemma-the-worlds-most-capable-difsential-wllm”target=”_ blank”> rilis vaultgemma Langsung menghadapi salah satu tantangan terbesar dalam pengembangan AI: Risiko privasi yang melekat pada pelatihan di VASTE. LLM telah terbukti rentan terhadap menghafal, di mana mereka dapat secara tidak sengaja mereproduksi data sensitif atau pribadi yang mereka latih.

Pendekatan Vaultgemma memberikan jaminan privasi ujung ke ujung dari bawah ke atas. Ini memastikan model dasar dibangun untuk mencegah menghafal detail spesifik, memungkinkannya untuk mempelajari pola umum tanpa terlalu dipengaruhi oleh setiap data. Ini fitur 26 lapisan dan menggunakan Multi-Query Attention (MQA).

Pilihan desain utama adalah mengurangi panjang urutan menjadi 1024 token, yang membantu mengelola persyaratan komputasi yang intens dari pelatihan pribadi.

Seluruh proses pra-pelatihan dilakukan dengan menggunakan Differentially Private Stochastic Gradient Descent (DP-SGD) Dengan jaminan formal (ε ≤ 2.0, Δ ≤ 1.1E-10). Teknik ini menambah kebisingan yang dikalibrasi selama pelatihan untuk melindungi contoh pelatihan individu.

Pengembangan model dipandu oleh serangkaian baru”undang-undang penskalaan DP”, kata Google. Penelitian ini memberikan kerangka kerja untuk menyeimbangkan pertukaran yang kompleks antara daya komputasi, anggaran privasi, dan utilitas model. Pelatihan dilakukan pada kelompok besar 2048 chip tpuv6e.

Harga privasi: kinerja dan tolok ukur

Privasi yang ketat ini dikenakan biaya. Ada trade-off yang melekat antara kekuatan jaminan privasi dan utilitas model.

Pada tolok ukur akademik standar, vaultgemma berkinerja buruk dibandingkan dengan model non-pribadi dengan ukuran yang sama, seperti pin-1 1b. width=”1024″tinggi=”547″SRC=”Data: Image/SVG+XML; Nitro-EMPTY-ID=mty0odo4ndy=-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1ndci Ihdpzhropsixmdi0iibozwlnahq9iju0nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Perbandingan menggambarkan bahwa metode pelatihan pribadi saat ini menghasilkan model dengan utilitas yang signifikan, bahkan jika celah tetap ada. Ini menyoroti jalur yang jelas untuk penelitian di masa depan.

menempatkan jaminan untuk tes: tidak ada hafalan yang dapat dideteksi

Validasi akhir dari pendekatan Vaultgemma terletak pada ketahanannya terhadap menghafal. Google melakukan tes empiris untuk mengukur kecenderungan model untuk mereproduksi urutan dari data pelatihannya, metode yang dirinci dalam laporan teknis Gemma sebelumnya.

Model ini diminta dengan awalan dari korpus pelatihan untuk melihat apakah itu akan menghasilkan sufiks yang sesuai. Hasilnya pasti: Vaultgemma tidak menunjukkan hafalan yang terdeteksi, baik yang tepat maupun perkiraan. Temuan ini sangat memvalidasi efektivitas proses pra-pelatihan DP-SGD.

Dengan open-sourcing model dan metodologinya, Google bertujuan untuk menurunkan penghalang untuk membangun teknologi pemeliharaan privasi. Rilis ini memberikan komunitas garis dasar yang kuat untuk generasi berikutnya dari AI yang aman, bertanggung jawab, dan pribadi.

Categories: IT Info