Sous le capot: VaultGemma de VaultGemma est un transformateur uniquement basé sur un transformateur uniquement basé sur le modèle Gemma 2 de Google. Il dispose de 26 couches et utilise une attention multi-coucher (MQA).
Un choix de conception clé a été de réduire la longueur de séquence à 1024 jetons, ce qui aide à gérer les exigences de calcul intenses de la formation privée.
Le processus de pré-formation a été réalisé en utilisant Descente de gradient stochastique différentiellement privé (DP-SGD) avec une garantie formelle de (ε ≤ 2,0, Δ ≤ 1,1e-10). Cette technique ajoute du bruit calibré pendant la formation pour protéger les exemples de formation individuels.
Le développement du modèle a été guidé par un nouvel ensemble de «lois sur l’échelle DP», explique Google. Cette recherche fournit un cadre pour équilibrer les compromis complexes entre la puissance de calcul, le budget de confidentialité et l’utilité du modèle. La formation a été menée sur un groupe massif de puces TPUV6E 2048.
Le prix de la vie privée: performance et références
Cette confidentialité rigoureuse a un coût. Il existe un compromis inhérent entre la force de la garantie de confidentialité et de l’utilité du modèle.
Sur les références académiques standard, VaultGemma sous-performes par rapport aux modèles non privilégiés de taille similaire, comme Gemma-3 1B.
Cependant, ses performances sont notablement comparables à celles des modèles non privés il y a environ cinq ans, il y a environ cinq ans, comme GPT-2. width=”1024″height=”547″src=”data: image/svg + xml; nitro-empty-id=mty0odo4ndy=-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1ndci Ihdpzhropsixmdi0iibozwlnahq9iJU0Nyigeg1Sbnm9imh0dha6ly93d3cudzMub3jnlziwmdavc3znij48l3zzz4=”>
La comparaison illustre que les méthodes de formation privées d’aujourd’hui produisent des modèles avec une utilité significative, même si un écart demeure. Il met en évidence une voie claire pour les recherches futures.
Poser des garanties à l’épreuve: aucune mémorisation détectable
La validation ultime de l’approche de VaultGemma réside dans sa résistance à la mémorisation. Google a effectué des tests empiriques pour mesurer la tendance du modèle à reproduire les séquences à partir de ses données de formation, une méthode détaillée dans les rapports techniques Gemma précédents.
Le modèle a été invité avec des préfixes du corpus de formation pour voir s’il générerait les suffixes correspondants. Les résultats étaient définitifs: VaultGemma n’a montré aucune mémorisation détectable, exacte ou approximative. Cette découverte valide fortement l’efficacité du processus de pré-formation DP-SGD.
En open-source le modèle et sa méthodologie, Google vise à réduire la barrière pour créer des technologies préservant la confidentialité. Le communiqué fournit à la communauté une puissante base de référence pour la prochaine génération d’IA sûre, responsable et privée