Η Google έχει κυκλοφορήσει το Vaultgemma, ένα νέο μοντέλο ανοικτής παραμέτρου 1 δισεκατομμυρίων που σηματοδοτεί ένα σημαντικό βήμα προς τα εμπρός στην προστασία της ιδιωτικής ζωής

AI. Ανακοινώθηκε στις 12 Σεπτεμβρίου από τις ομάδες της έρευνας και της βαθιάς του, το Vaultgemma είναι το μεγαλύτερο μοντέλο του είδους του Εκπαιδευμένο από το γήπεδο με τη διαφορά. Αποτρέψτε το μοντέλο να απομνημονεύει ή να διαρρέει ευαίσθητες πληροφορίες από τα δεδομένα εκπαίδευσης του-ένας κρίσιμος κίνδυνος για μεγάλα μοντέλα γλωσσών. Src=”Δεδομένα: εικόνα/svg+xml; nitro-empty-id=mty0mzoxmte4-1, base64, phn2zyb2awv3qm94psiwidagmti1mca0nj kiihdpzhropsixmjuwiibozwlnahq9ijq2osigeg1sbnmm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>>

Ενώ τα μέτρα προστασίας της ιδιωτικής ζωής οδηγούν σε αντιστοίχιση στην ακατέργαστη απόδοση, το Vaultgemma καθιερώνει ένα ισχυρό νέο θεμέλιο για την ανάπτυξη του Safer AI. Hugging Face

href=”https://research.google/blog/vaultgemma-the-worlds-most-capable-differentiory-private-llm”target=”_ blank”> Η απελευθέρωση του Vaultgemma αντιμετωπίζει άμεσα μία από τις μεγαλύτερες προκλήσεις στην ανάπτυξη του AI: τον εγγενή κίνδυνο ιδιωτικής ιδιωτικής ιδιωτικής εκπαίδευσης για τα μοντέλα web-scale. Τα LLMs έχουν αποδειχθεί ότι είναι ευαίσθητα στην απομνημόνευση, όπου μπορούν να αναπαράγουν ακούσια ευαίσθητα ή προσωπικά δεδομένα στα οποία εκπαιδεύτηκαν. Αυτό εξασφαλίζει ότι το θεμελιώδες μοντέλο είναι κατασκευασμένο για να αποτρέψει την απομνημόνευση συγκεκριμένων λεπτομερειών, επιτρέποντάς του να μάθει γενικά πρότυπα χωρίς να επηρεάζεται υπερβολικά από οποιοδήποτε κομμάτι δεδομένων. Διαθέτει 26 στρώματα και χρησιμοποιεί προσοχή πολλαπλών ερωτήσεων (MQA).

Μια επιλογή σχεδιασμού κλειδιού μείωσε το μήκος αλληλουχίας σε 1024 tokens, τα οποία βοηθούν στη διαχείριση των έντονων υπολογιστικών απαιτήσεων της ιδιωτικής κατάρτισης. Target=”_ Blank”> Διαφορικά ιδιωτική στοχαστική κλίση (DP-SGD) με επίσημη εγγύηση (ε ≤ 2.0, δ ≤ 1.1e-10). Αυτή η τεχνική προσθέτει βαθμονομημένο θόρυβο κατά τη διάρκεια της κατάρτισης για την προστασία ατομικών παραδειγμάτων κατάρτισης. Αυτή η έρευνα παρέχει ένα πλαίσιο για την εξισορρόπηση των σύνθετων συμβιβασμών μεταξύ της υπολογιστικής εξουσίας, του προϋπολογισμού απορρήτου και της χρησιμότητας μοντέλου. Η εκπαίδευση διεξήχθη σε ένα τεράστιο σύμπλεγμα 2048 τσιπς TPUV6E. Υπάρχει μια εγγενή αντιστάθμιση μεταξύ της δύναμης της εγγύησης απορρήτου και της χρησιμότητας του μοντέλου

σε τυπικά ακαδημαϊκά σημεία αναφοράς, το Vaultgemma χαμηλότερο από περίπου πέντε χρόνια πριν, όπως το GPT-2. width=”1024″Ύψος=”547″Src=”Δεδομένα: Εικόνα/SVG+XML, Nitro-Empty-id=Mty0odo4ndy=-1, Base64, Phn2zyb2awv3qm94psiwidagmtaynca1ndci Ihdpzhropsixmdi0iibozwlnahq9iju0nyigeg1sbnmm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Η σύγκριση δείχνει ότι οι σημερινές ιδιωτικές μέθοδοι κατάρτισης παράγουν μοντέλα με σημαντική χρησιμότητα, ακόμη και αν παραμένει ένα κενό. Υπογραμμίζει μια σαφή πορεία για τη μελλοντική έρευνα. Η Google διενήργησε εμπειρικές δοκιμές για τη μέτρηση της τάσης του μοντέλου να αναπαράγει ακολουθίες από τα δεδομένα εκπαίδευσης, μια μέθοδο που περιγράφεται λεπτομερώς σε προηγούμενες τεχνικές εκθέσεις Gemma. Τα αποτελέσματα ήταν οριστικά: το Vaultgemma δεν παρουσίασε ανιχνεύσιμη απομνημόνευση, είτε ακριβή είτε κατά προσέγγιση. Αυτό το εύρημα επικυρώνει έντονα την αποτελεσματικότητα της διαδικασίας προ-κατάρτισης DP-SGD.

Με την ανοιχτή προμήθεια του μοντέλου και της μεθοδολογίας της, η Google στοχεύει στη μείωση του φραγμού για την οικοδόμηση τεχνολογιών διατήρησης της ιδιωτικής ζωής. Η απελευθέρωση παρέχει στην κοινότητα μια ισχυρή βασική γραμμή για την επόμενη γενιά ασφαλούς, υπεύθυνου και ιδιωτικού AI.

Categories: IT Info