Google presenta Vaultgemma, un modelo de IA histórico capacitado para la privacidad

Google ha lanzado Vaultgemma, un nuevo modelo abierto de 1 billón de parámetros que marca un paso significativo en la preservación de la privacidad

ai. Anunciado el 12 de septiembre por sus equipos de investigación y de DeepMind, Vaultgemma es el modelo más grande de su tipo

Si bien las medidas de privacidad dan como resultado una compensación en el rendimiento en bruto, Vaultgemma establece una nueva base poderosa para desarrollar una ai más segura.

El modelo, sus pesos e informe técnico ahora están abiertos para los investigadores en “en blanco”href=”https://huggingface.co/Google/Vaultgemma-1b”Target=”_ Blank”> Hugging Face .

una nueva frontera en la privacidad ai

The Liberación de Vaultgemma Confrontan directamente uno de los mayores desafíos en el desarrollo de la IA: el riesgo de privacidad inherente en los modelos de entrenamiento de los modelos de capacitación en vast, a escala web. Se ha demostrado que los LLM son susceptibles a la memorización, donde pueden reproducir inadvertidamente datos sensibles o personales en los que fueron entrenados.

El enfoque de Vaultgemma proporciona una garantía de privacidad de extremo a extremo desde cero. Esto garantiza que el modelo fundamental esté creado para evitar la memorización de detalles específicos, lo que le permite aprender patrones generales sin estar demasiado influenciado por ninguna pieza de datos.

bajo el capó: la arquitectura y la capacitación de Vaultgemma

arquitecturalmente, Vaultgemma es un transformador decodificador basado en el modelo Gemma 2 de Google. Cuenta con 26 capas y usa atención múltiple (MQA).

Una opción de diseño clave fue reducir la longitud de la secuencia a 1024 tokens, lo que ayuda a administrar los requisitos computacionales intensos de la capacitación privada.

Todo el proceso de pre-entrenamiento se realizó utilizando Descenso de gradiente estocástico diferencialmente privado (DP-SGD) con una garantía formal de (ε ≤ 2.0, Δ ≤ 1.1e-10). Esta técnica agrega ruido calibrado durante el entrenamiento para proteger ejemplos de capacitación individual.

El desarrollo del modelo fue guiado por un nuevo conjunto de”leyes de escala DP”, dice Google. Esta investigación proporciona un marco para equilibrar las complejas compensaciones entre el poder de cálculo, el presupuesto de privacidad y la utilidad del modelo. La capacitación se realizó en un grupo masivo de 2048 chips TPUV6E.

El precio de la privacidad: rendimiento y puntos de referencia

Esta rigurosa privacidad tiene un costo. Existe una compensación inherente entre la fortaleza de la garantía de privacidad y la utilidad del modelo.

En puntos de referencia académicos estándar, Vaultgemma tiene un rendimiento inferior en comparación con los modelos no privados de un tamaño similar, como Gemma-3 1B.

Sin embargo, su rendimiento es notablemente comparable al de los modelos no privados de aproximadamente cinco años, como Gpt-2. ancho=”1024″altura=”547″src=”datos: imagen/svg+xml; nitro-tempy-id=mty0odo4ndy=-1; base64, pHN2zyB2AWV3QM94PSIWIDAGMTAYNCA1NDCI Ihdpzhropsixmdi0iibozwlnahq9iju0nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

La comparación ilustra que los métodos de entrenamiento privado de hoy producen modelos con utilidad significativa, incluso si queda una brecha. Destaca un camino claro para futuras investigaciones.

Poniendo garantías a la prueba: no hay memorización detectable

La validación final del enfoque de Vaultgemma radica en su resistencia a la memorización. Google realizó pruebas empíricas para medir la tendencia del modelo a reproducir secuencias de sus datos de entrenamiento, un método detallado en los informes técnicos anteriores de Gemma.

Se solicitó el modelo con prefijos del corpus de entrenamiento para ver si generaría los sufijos correspondientes. Los resultados fueron definitivos: Vaultgemma no exhibió memorización detectable, exacta o aproximada. Este hallazgo valida fuertemente la efectividad del proceso de pre-entrenamiento DP-SGD.

Al emitir el modelo y su metodología, Google tiene como objetivo reducir la barrera para construir tecnologías de preservación de la privacidad. El comunicado proporciona a la comunidad una poderosa línea de base para la próxima generación de IA seguras, responsables y privadas

Google presenta Vaultgemma, un modelo de IA histórico capacitado para la privacidad

Published by All Things Windows on September 14, 2025

una nueva frontera en la privacidad ai

bajo el capó: la arquitectura y la capacitación de Vaultgemma

El precio de la privacidad: rendimiento y puntos de referencia

Poniendo garantías a la prueba: no hay memorización detectable

IT Info

Microsoft: un problema de audio desde hace mucho tiempo en Windows 11 24h2 resuelto con la última actualización

IT Info

Windows 11 Insider Preview Build Build 27943 (Canary Channel) trae correcciones y mejoras.

IT Info

Windows 11 Insider Preview Build Build 26220.6682 (Dev Channel) trae un cuadro de solicitud de copiloto y más

Google presenta Vaultgemma, un modelo de IA histórico capacitado para la privacidad

Published by All Things Windows on September 14, 2025

una nueva frontera en la privacidad ai

bajo el capó: la arquitectura y la capacitación de Vaultgemma

El precio de la privacidad: rendimiento y puntos de referencia

Poniendo garantías a la prueba: no hay memorización detectable

Related Posts

IT Info

Microsoft: un problema de audio desde hace mucho tiempo en Windows 11 24h2 resuelto con la última actualización

IT Info

Windows 11 Insider Preview Build Build 27943 (Canary Channel) trae correcciones y mejoras.

IT Info

Windows 11 Insider Preview Build Build 26220.6682 (Dev Channel) trae un cuadro de solicitud de copiloto y más