Google har gitt ut Vaultgemma, en ny open modell på 1 milliard dollar som markerer et betydelig skritt fremover i personvernbevarende

AI. Vaultgemma ble kunngjort 12. september av sine forsknings-og DeepMind-team, og er den største modellen i sitt slag TRENING FOR DETTE BUNDT ONT OFTT med Differial Report.pdf”Target=”. Matematiske garantier som forhindrer at modellen memoriserer eller lekker sensitiv informasjon fra treningsdataene-en kritisk risiko for store språkmodeller.

Mens personverntiltakene resulterer i en avveining i rå ytelse, etablerer Vaultgemma et kraftig nytt grunnlag for å utvikle tryggere AI.

Modellen, den Hugging Face .

en ny grense i AI-privatlivet

Utgivelse av Vaultgemma Direkte konfronterer en av de største utfordringene, web-scalen. LLM-er har vist seg å være utsatt for memorering, der de utilsiktet kan reprodusere sensitive eller personopplysninger de ble opplært på.

Vaultgemma’s tilnærming gir en ende-til-ende personverngaranti fra grunnen av. Dette sikrer at grunnleggende modellen er bygget for å forhindre memorering av spesifikke detaljer, slik at den kan lære generelle mønstre uten å bli altfor påvirket av et enkelt stykke data.

Under panseret: Vaultgemma’s Architecture and Training

Arkitekturelt er Vaultgema en avkoder-per-transformasjonsbasert BASE-BASE-BASE-BASE-BASE-BASE-BASE-BASE-BASE-BASE-BASE BASE BASE BASE BASE BASE BASE BASE BASE BASE BASE BASE BASE BASE ARGEMMA 2. Den har 26 lag og bruker multi-quey-oppmerksomhet (MQA).

Et nøkkeldesignvalg var å redusere sekvenslengden til 1024 symboler, som hjelper til med Target=”_ Blank”> Differensielt privat stokastisk gradient nedstigning (DP-SGD) Med en formell garanti på (ε ≤ 2,0, Δ ≤ 1.1E-10). Denne teknikken tilfører kalibrert støy under trening for å beskytte individuelle treningseksempler.

Modellens utvikling ble styrt av et nytt sett med”DP-skaleringslover”, sier Google. Denne forskningen gir et rammeverk for å balansere de komplekse avveiningene mellom beregningskraft, personvernbudsjett og modellverktøy. Trening ble utført på en massiv klynge av 2048 TPUV6E-brikker.

Prisen på personvern: ytelse og benchmarks

Dette strenge personvernet koster. Det er en iboende avveining mellom styrken av personverngarantien og modellens verktøy.

På standard akademiske mål

Sammenligningen illustrerer at dagens private treningsmetoder produserer modeller med betydelig nytteverdi, selv om det gjenstår et gap. Det fremhever en klar vei for fremtidig forskning.

Setting garantier til testen: Ingen påvisbar memorering

Den ultimate valideringen av Vaultgemmas tilnærming ligger i dens motstand mot memorering. Google gjennomførte empiriske tester for å måle modellens tendens til å reprodusere sekvenser fra treningsdataene, en metode som er beskrevet i tidligere Gemma tekniske rapporter.

Modellen ble bedt om med prefikser fra treningskorpus for å se om den ville generere de tilsvarende suffiksene. Resultatene var definitive: Vaultgemma viste ingen påvisbar memorering, verken nøyaktig eller omtrentlig. Dette funnet validerer sterkt effektiviteten av DP-SGD-pre-treningsprosessen.

Ved å åpne modellen og dens metodikk har Google som mål å senke barrieren for å bygge personvernbevarende teknologier. Utgivelsen gir samfunnet en kraftig grunnlinje for neste generasjons trygge, ansvarlige og private AI.

Categories: IT Info