Google đã phát hành VaultGemma, một mô hình mở tham số 1 tỷ mới, đánh dấu một bước tiến đáng kể trong bảo tồn quyền riêng tư
AI. Được công bố vào ngày 12 tháng 9 bởi các nhóm nghiên cứu và DeepMind, Vaultgemma là mô hình lớn nhất thuộc loại này
Mặc dù các biện pháp bảo mật dẫn đến sự đánh đổi trong hiệu suất thô, Vaultgemma thiết lập một nền tảng mới mạnh mẽ để phát triển AI an toàn hơn. href=”https://huggingface.co/google/vaultgemma-1b”target=”_ blank”> ôm mặt . href=”https://research.google/blog/vaultgemma-the-worlds-most-capable-diferferly–private-llm”Target=”_ Blank”> Phát hành Vaultgemma Trực tiếp đối mặt với một trong những thách thức lớn nhất trong các mô hình LLM đã được chứng minh là dễ bị ghi nhớ, nơi chúng có thể vô tình tái tạo dữ liệu nhạy cảm hoặc cá nhân mà họ được đào tạo. Điều này đảm bảo mô hình nền tảng được xây dựng để ngăn chặn việc ghi nhớ các chi tiết cụ thể, cho phép nó học các mẫu chung mà không bị ảnh hưởng quá mức bởi bất kỳ phần dữ liệu nào. Nó có 26 lớp và sử dụng sự chú ý nhiều người (MQA). Target=”_ Blank”> Độ dốc ngẫu nhiên riêng biệt khác nhau (DP-SGD) với sự đảm bảo chính thức của (ε ≤ 2.0, δ ≤ 1.1E-10). Kỹ thuật này bổ sung tiếng ồn được hiệu chỉnh trong quá trình đào tạo để bảo vệ các ví dụ đào tạo riêng lẻ. Nghiên cứu này cung cấp một khuôn khổ để cân bằng sự đánh đổi phức tạp giữa sức mạnh tính toán, ngân sách bảo mật và tiện ích mô hình. Đào tạo đã được thực hiện trên một cụm khổng lồ gồm 2048 chip TPUV6E. Có sự đánh đổi cố hữu giữa sức mạnh của bảo đảm quyền riêng tư và tiện ích mô hình. Chiều rộng=”1024″chiều cao=”547″src=”Dữ liệu: Image/SVG+XML; Ihdpzhropsixmdi0iibozwlnahq9iju0nyigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Sự so sánh minh họa rằng các phương pháp đào tạo tư nhân ngày nay tạo ra các mô hình với tiện ích đáng kể, ngay cả khi vẫn còn một khoảng cách. Nó nhấn mạnh một con đường rõ ràng cho nghiên cứu trong tương lai. Google đã tiến hành các bài kiểm tra thực nghiệm để đo lường xu hướng tái tạo các trình tự từ dữ liệu đào tạo của mình, một phương pháp được nêu chi tiết trong các báo cáo kỹ thuật GEMMA trước đây. Các kết quả là dứt khoát: Vaultgemma thể hiện không có ghi nhớ có thể phát hiện được, chính xác hoặc gần đúng. Phát hiện này xác nhận mạnh mẽ tính hiệu quả của quá trình đào tạo trước DP-SGD. Bản phát hành cung cấp cho cộng đồng một đường cơ sở mạnh mẽ cho thế hệ tiếp theo của AI an toàn, có trách nhiệm và riêng tư.