Googleは、プライバシーを節約する
aiで大きな前進を示す新しい1億パラメーターオープンモデルであるVaultgemmaをリリースしました。 9月12日に調査とディープマインドチームによって発表されたVaultgemmaは、この種の最大のモデルですモデルがトレーニングデータから機密情報を記憶したり漏らしたりするのを防ぐことを保証します。これは、大規模な言語モデルの重大なリスクです。 src=”data:imagesvg+xml; nitro-empty-id=mty0mzoxmte4-1; base64、phn2zyb2awv3qm94psiwidagmti1mca0nj kiihdpzhropsixmjuwiibozwlnahq9ijq2osigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
プライバシー測定により生のパフォーマンスがトレードオフされますが、Vaultgemmaはより安全なAIを開発するための強力な新しい基盤を確立します。 href=”https:> hugging face 。 href=”https://research.google/blog/vaultgemma-the-worlds-most-differentially-private-llm”ターゲット=”_ blank”> vaultgemmaのリリース LLMは、訓練された敏感なデータまたは個人的なデータを不注意に再現できる記憶の影響を受けやすいことが示されています。これにより、特定の詳細の暗記を防ぐために基礎モデルが構築され、単一のデータに過度に影響を受けることなく一般的なパターンを学習できるようになります。 26のレイヤーを備えており、マルチクエリの注意(MQA)を使用します。
重要な設計の選択は、シーケンスの長さを1024トークンに削減することでした。これは、プライベートトレーニングの強力な計算要件を管理するのに役立ちました。ターゲット=”_ blank”>差別的に私的確率勾配降下(DP-SGD)(ε≤2.0、Δ≤1.1E-10)の正式な保証付き。この手法は、個々のトレーニングの例を保護するためのトレーニング中に校正騒音を追加します。
モデルの開発は、「DPスケーリング法」の新しいセットによって導かれました、とGoogleは言います。この研究は、コンピューティングパワー、プライバシー予算、モデルユーティリティ間の複雑なトレードオフのバランスをとるためのフレームワークを提供します。トレーニングは、2048 TPUV6Eチップの大規模なクラスターで実施されました。プライバシー保証の強度とモデルのユーティリティの間には固有のトレードオフがあります。
標準的なアカデミックベンチマークでは、gemma-3 1b。
のように、同様のサイズの非プライベートモデルと比較して、Vaultgemmaはパフォーマンスの低いモデルではありません。 width=”1024″height=”547″src=”data:image/svg+xml; nitro-empty-id=mty0odo4ndy=-1; base64、phn2zyb23qm94psiwidagmtaynca1ndci ihdpzhropsixmdi0iibozwlnahq9iju0nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
比較は、今日のプライベートトレーニング方法が、たとえギャップが残っていても、有効性のあるモデルを生成することを示しています。将来の研究の明確な道を強調しています。
テストに保証を置く:検出可能な暗記はありません
Vaultgemmaのアプローチの究極の検証は、暗記に対する抵抗にあります。 Googleは、以前のGemma技術レポートで詳述されている方法であるトレーニングデータからシーケンスを再現するモデルの傾向を測定するために経験的テストを実施しました。
モデルは、対応するサフィックスを生成するかどうかを確認するために、トレーニングコーパスのプレフィックスでプロンプトされました。結果は決定的でした。vaultgemmaは、正確または近似のいずれかで、検出可能な暗記を示しませんでした。この発見は、モデルとその方法論をオープンソーシングすることにより、DP-SGDの事前トレーニングプロセスの有効性を強く検証します。Googleは、プライバシーを提供するテクノロジーを構築するための障壁を下げることを目指しています。このリリースは、コミュニティに、次世代の安全、責任、および私的AIのための強力なベースラインを提供します。