Google a publié VaultGemma, un nouveau modèle ouvert de 1 million de paramètres qui marque un pas en avant significatif dans la confidentialité

AI. Annoncé le 12 septembre par ses équipes de recherche et DeepMind, VaultGemma est le plus grand modèle de ce type Formé de la méthode pour la confidentialité différentielle . garantit qui empêche le modèle de mémoriser ou de fuir des informations sensibles à partir de ses données de formation-un risque critique pour les modèles de gros langage.

Bien que les mesures de confidentialité entraînent un compromis en performance brute, VaultGemma établit une nouvelle base puissante pour développer une IA plus sûre

Le modèle, ses poids et son rapport technique sont désormais ouvertement disponibles pour les chercheurs sur Face étreint .

Une nouvelle frontière dans la confidentialité Ai

le version de vaultGemma confronte directement à l’un des plus grands défis du développement de l’IA: le risque de confidentialité inhérent à l’entraînement sur les vastes modèles de données Web. Il a été démontré que les LLM sont susceptibles de mémoriser, où ils peuvent reproduire par inadvertance des données sensibles ou personnelles sur lesquelles ils ont été formés. Cela garantit que le modèle fondamental est construit pour empêcher la mémorisation de détails spécifiques, ce qui lui permet d’apprendre des modèles généraux sans être trop influencés par une seule pièce de données.

Sous le capot: VaultGemma de VaultGemma est un transformateur uniquement basé sur un transformateur uniquement basé sur le modèle Gemma 2 de Google. Il dispose de 26 couches et utilise une attention multi-coucher (MQA).

Un choix de conception clé a été de réduire la longueur de séquence à 1024 jetons, ce qui aide à gérer les exigences de calcul intenses de la formation privée.

Le processus de pré-formation a été réalisé en utilisant Descente de gradient stochastique différentiellement privé (DP-SGD) avec une garantie formelle de (ε ≤ 2,0, Δ ≤ 1,1e-10). Cette technique ajoute du bruit calibré pendant la formation pour protéger les exemples de formation individuels.

Le développement du modèle a été guidé par un nouvel ensemble de «lois sur l’échelle DP», explique Google. Cette recherche fournit un cadre pour équilibrer les compromis complexes entre la puissance de calcul, le budget de confidentialité et l’utilité du modèle. La formation a été menée sur un groupe massif de puces TPUV6E 2048.

Le prix de la vie privée: performance et références

Cette confidentialité rigoureuse a un coût. Il existe un compromis inhérent entre la force de la garantie de confidentialité et de l’utilité du modèle.

Sur les références académiques standard, VaultGemma sous-performes par rapport aux modèles non privilégiés de taille similaire, comme Gemma-3 1B.

Cependant, ses performances sont notablement comparables à celles des modèles non privés il y a environ cinq ans, il y a environ cinq ans, comme GPT-2. width=”1024″height=”547″src=”data: image/svg + xml; nitro-empty-id=mty0odo4ndy=-1; base64, phn2zyb2awv3qm94psiwidagmtaynca1ndci Ihdpzhropsixmdi0iibozwlnahq9iJU0Nyigeg1Sbnm9imh0dha6ly93d3cudzMub3jnlziwmdavc3znij48l3zzz4=”>

La comparaison illustre que les méthodes de formation privées d’aujourd’hui produisent des modèles avec une utilité significative, même si un écart demeure. Il met en évidence une voie claire pour les recherches futures.

Poser des garanties à l’épreuve: aucune mémorisation détectable

La validation ultime de l’approche de VaultGemma réside dans sa résistance à la mémorisation. Google a effectué des tests empiriques pour mesurer la tendance du modèle à reproduire les séquences à partir de ses données de formation, une méthode détaillée dans les rapports techniques Gemma précédents.

Le modèle a été invité avec des préfixes du corpus de formation pour voir s’il générerait les suffixes correspondants. Les résultats étaient définitifs: VaultGemma n’a montré aucune mémorisation détectable, exacte ou approximative. Cette découverte valide fortement l’efficacité du processus de pré-formation DP-SGD.

En open-source le modèle et sa méthodologie, Google vise à réduire la barrière pour créer des technologies préservant la confidentialité. Le communiqué fournit à la communauté une puissante base de référence pour la prochaine génération d’IA sûre, responsable et privée

Categories: IT Info