Google pressar på för globala åtgärder för konstgjord allmän intelligens (AGI) och betonar brådskan att skapa skyddsåtgärder innan dessa system går utöver mänsklig kontroll. I ett blogginlägg som publicerades igår av DeepMind avslöjade företaget en ny internationell säkerhetsram byggd kring tre viktiga pelare: att stärka teknisk forskning, genomföra tidiga varningssystem och främja internationellt samarbete genom styrelseorgan.
I stället för att fokusera enbart på politiska ramar eller abstrakt etiska överväganden, är DeepMinds förslag fast rotat i det praktiska med AI: s snabba eV-återhämtning. Företaget betonar att behovet av säkerhetsåtgärder inte är ett avlägset problem, utan en omedelbar utmaning.”[A] Nyckelelement i vår strategi är att identifiera och begränsa tillgången till farliga kapaciteter som kan missbrukas, inklusive de som möjliggör cyberattacker.,”Deepmind uttalade i sin
Denna division kommer att leda DeepMinds ansträngningar för att utveckla tekniska lösningar och säkerhetsstandarder när området fortskrider. Detta interna fokus bygger på Googles bredare engagemang för att säkerställa AI: s ansvarsfulla utveckling.
I april 2023 slog Google DeepMind sitt hjärnteam med DeepMind och bildade en enhetlig forskningsenhet som har till uppgift att främja AI-kapacitet och säkerställa säkerheten för dessa framsteg. Fusionen banade vägen för utvecklingen av Gemini-modellfamiljen, som såg betydande uppgraderingar med den senaste utgivningen av Gemini 2.5 Pro Experimental-dess senaste multimodala AI-modell som kunde avancerade resonemang. Denna framsteg signalerar DeepMinds växande förmågor, liksom dess fokus på att säkerställa att sådana kraftfulla system är på ett ansvarsfullt sätt.
ekon från rivaler-och några motsägelser
DeepMinds uppmaning till säkerhetsreglering finns inte isolerat. Den anländer när andra stora AI-laboratorier börjar vidta liknande steg. Anthropic, en av DeepMinds mest betydelsefulla konkurrenter, utfärdade en liknande varning i november 2024, och uppmanade tillsynsmyndigheter att vidta snabba åtgärder inom 18 månader för att förhindra borttagande AI-utveckling.
Företaget introducerade nya interna policyer, inklusive”kapacitetsgränser”som automatiskt utlöser starkare skyddsåtgärder när AI-systemen framgår. Anthropic har också arbetat med U.S. Department of Energy’s National Nuclear Security Administration och kör röda teamet för att testa sina Claude-modeller i högsäkerhetsinställningar. Detta initiativ betonar det ökande fokuset på AI-säkerhet, särskilt i sammanhang där AI kan påverka nationell säkerhet.
meta, som länge har förkämpat öppen AI-utveckling, omvärderar också sin strategi. I februari 2025 tillkännagav företaget en förskjutning i sin AI-strategi med Frontier AI-ramverket, som delar upp modeller i kategorier om”högrisk”och”kritisk risk”. Meta förklarade att kritiska riskmodeller inte längre skulle släppas offentligt utan stränga skyddsåtgärder på plats.
Detta beslut följde missbruk av dess lama-modeller för att generera skadliga skript och obehöriga militära chatbots. Meta betonade att dess mål är att minimera katastrofala risker förknippade med dessa modeller.
Medan dessa rörelser återspeglar en förskjutning mot försiktighet, visar de också det alltmer komplexa förhållandet mellan AI-utveckling och dess potentiella missbruk. När fler företag kalibrerar sina strategier, passar DeepMinds förslag in i ett större försiktighetsmönster när branschen kämpar med framtiden för AGI.
Att bygga verktygen för modellens inneslutning
medan mycket av konversationen kring AI-säkerhetscentra på styrelse, andra företag fokuserar på tekniska lösningar. I februari lanserade Anthropic den konstitutionella klassificeraren, ett externt filtreringssystem som är utformat för att förhindra motståndare och skadliga utgångar från dess AI-modeller. Tester visade att klassificeraren minskade framgångsgraden för Jailbreak från 86% till bara 4,4%.
För att validera dess effektivitet, ledde antropisk en offentlig utmaning som erbjuder en $ 15 000-vinst till alla som kunde kringgå systemet. Ingen av deltagarna lyckades bryta den helt och understryker den växande sofistikeringen av verktyg som är utformade för att innehålla AI-system.
främjar sitt engagemang för säkerhet, antropiska i mars lanserade sin tolkningsram och kallar det ett”AI-mikroskop”som ett verktyg som ger insikter om hur modeller som Claude gör beslut. Genom att analysera neurala aktiveringar kan det spåra hur modellen bearbetar information och upptäcker potentiellt skadligt beteende.
Denna tolkbarhet är väsentlig, hävdar DeepMind, eftersom det kan förhindra oönskade resultat innan de manifesterar. Clio introducerades i december 2024 och analyserar miljoner samtal med Claude för att upptäcka mönster av missbruk. Systemet prioriterar integritet genom att anonymisera konversationer innan de bearbetar dem. Denna proaktiva strategi för att övervaka AI-beteende överensstämmer med DeepMinds betoning på behovet av pågående säkerhetsövervakning när AI-system växer mer sofistikerade.
EU-lagen och nationella politiska ansträngningar tar
DeepMinds förslag anländer som regeringar runt om i världen börjar ta betong för att reglera AI. Europeiska unionens AI-lag, som trädde i kraft den 2 februari, förbjuder vissa AI-system som anses utgöra “oacceptabla risker” och ställer strikta transparenskrav på de som anses hög risk.
Dessa förordningar kräver att företag avslöjar hur deras modeller utbildas, vilka data de använder och hur de miterar potentiella riser. Företag som OpenAI och META har offentliggjort att uppfylla dessa krav, även om många ännu inte har uppfyllt fullt ut.
EU: s lagens genomförande följer månader av debatt inom branschen om hur man bäst ska balansera innovation med säkerhet. Europeiska kommissionen har redan angett att bristande efterlevnad kan leda till stora böter-upp till 6% av ett företags globala intäkter för kränkningar.
I USA har Vita huset börjat betrakta Anthropics senaste förslag, vilket uppmanar strängare säkerhetsprotokoll och övervakningsmekanismer för AGI-modeller. Som rapporterats av TechCrunch rullade emellertid antropisk tyst tillbaka flera säkerhetsåtaganden som det gjorde under de första dagarna av Biden-administrationen och väckte frågor om konsistensen i branschens självreglerande ansträngningar. Denna bakgrund sätter scenen för DeepMinds uppmaning till starkare styrning.
räcker i hårdvara och branschpartnerskap
Enhet för AI-säkerhet är inte begränsad till programvara ensam. Hårdvaruföretag spelar också en roll för att bygga AI-säkerhetsinfrastruktur. NVIDIA introducerade till exempel NEMO-räckor i januari 2025, en svit med mikroservices utformade för att ge skyddsåtgärder i realtid mot skadliga AI-beteenden. Verktygen inkluderar innehållssäkerhetsfilter, jailbreak-upptäckt och ämneskontroll, alla utformade för att arbeta i tandem med befintliga modeller för att säkerställa att de förblir i överensstämmelse med säkerhetsprotokoll.
Dessa verktyg är redan utplacerade i sektorer som hälso-och sjukvård, detaljhandel och bil, och erbjuder en nivå av övervakning som djupt förfalls förslag till en bredare skala. Kari Briski, vice president för Enterprise AI-modeller i NVIDIA, konstaterade att dessa system tillåter företag att”säkra sina modeller mot skadliga resultat”samtidigt som de upprätthåller låg-latensprestanda. Genom att integrera dessa tekniker positionerar NVIDIA sig som en nyckelaktör i AI: s framtida säkerhet.
Samarbetet mellan hårdvara och mjukvaruföretag understryker det kollektiva ansvaret som delas över hela branschen för att hantera AGI-risker. Medan DeepMind’s Framework förespråkar för en global styrelsestruktur, är det uppenbart att vägen för att säkra AI kommer att kräva samordnade åtgärder från både utvecklare och hårdvaruleverantörer.