Mens kunstig intelligens fortsetter sin marsj inn i bedriften, åpnes en ny grense for sikkerhetsutfordringer. AI-agenter, spesielt de som er drevet av store språkmodeller, kommer med kjente operasjonelle quirks som hallusinasjon (generering av falsk informasjon) og en sårbarhet for å be om injeksjonsangrep-en teknikk der ondsinnede instruksjoner som er gjemt i inngangsdata, lurer AI til å utføre utilsiktede handlinger.

Disse er ikke bare teoretiske risikoer; De representerer potensielle gateways for å kompromittere bedriftssystemer. Nå legger Anthropics toppsikkerhetsleder en spesifikk tidslinje til disse abstrakte bekymringene.

Jason Clinton, Anthropics hovedinformasjonssikkerhetsansvarlig, mener AI-systemer som er i stand til å opptre som autonome”virtuelle ansatte”, vil bli en realitet i løpet av bedriftsnettverk i løpet av de neste tolvte månedene. Når vi snakker med Axios denne uken, han advarte at om at ikke fullt ut forberedt for sikkerheten til å overhale disse avanserte en identitet. src=”https://winbuzzer.com/wp-content/uploads/2024/10/antropic-ai-safety-ai-sabotage.jpg”>

Disse virtuelle arbeiderne vil ikke bare være verktøy; Clinton ser for seg at de har vedvarende”minner”, spesifikke jobbroller og deres egne bedriftsregnskap og passord, og gir dem betydelig operativ uavhengighet som overskrider dagens AI-agenter, som vanligvis fokuserer på spesifikke, programmerte oppgaver som Microsoft bruker dem for å svare på phishing-varsler.”I den verdenen er det så mange problemer som vi ikke har løst ennå fra et sikkerhetsperspektiv som vi trenger å løse,” clinton commented cropsy til axy-arbeidstabs-security”-målet=”_ blank”> clinton carpent virtual-t

Kjerneproblemet ligger i å håndtere disse AI-identitetene. Hvordan sikrer du en AIs brukerkonto fra kompromiss? Hvilke nettverkstillatelser passer for en autonom agent?

og avgjørende, hvem er ansvarlig når en AI-ansatt opptrer uventet eller ondsinnet? Clinton påpekte potensialet for en AI å bli useriøs, kanskje hacke et selskaps interne programvareutviklingsrørledning.”I en gammel verden er det et straffbart lovbrudd,”sa han.

“Men i denne nye verdenen, som er ansvarlig for en agent som kjørte i et par uker og kom til det punktet?”Denne utfordringen forsterker eksisterende vanskeligheter nettverksadministratorer står overfor overvåkning av konto tilgang og avverger angripere ved bruk av stjålet legitimasjon.

Problemområdet, ofte kalt ikke-menneskelig identitetsstyring (NHIM), omfatter sikring av tilgang for tjenestekontoer, API-er og automatiserte verktøy-en befolkning som allerede er enorm; Delinea estimerte tidligere i april 2025 at ikke-humane nettverksidentiteter (som tjenestekontoer) Allerede overgående menneskelige 46-til-1 i mange firmaer . Å legge til autonome AI-ansatte øker denne kompleksiteten dramatisk.

Antropisk, uttalte Clinton, ser på disse sikkerhetsspørsmålene som et viktig område for utvikling. Han nevnte spesifikt behovet for bedre verktøy for å gi synlighet i AI-ansattes aktiviteter og systemer for å klassifisere disse nye kontoer innen sikkerhetsrammer.

Selskapet rammer sine egne oppgaver i dette området som todelt: først,”for å være grundige. Dette fokuset er ikke nytt; I slutten av 2024 tok Clinton til orde for Konfidensiell databehandling bruker maskinvarebaserte pålitelige utførelsesmiljøer for å beskytte data selv mens de blir behandlet i minnet, og tar sikte på å forhindre uautorisert tilgang eller modifisering.

antropics egen forskning fremhever risikoen

AI-laboratoriet fremhever risikoen for disse bekymringene. Arbeidet med en tolkbarhetsramme, detaljert i mars, tillot forskere å observere interne modellstater assosiert med potensielt skadelige simulerte handlinger, for eksempel å generere falske begrunnelser eller til og med forestille seg skade på skaperne.

Videre, en studie på AI-verdier som er utgitt 21. april. Det relaterte verdier datasett er offentlig .

antropics interne at de”_ blank”-tokt med”TOULS-kikkene”. og instruksjoner. Dette skjedde selv om modellene ble vurdert som ennå ikke utgjør vesentlig forhøyede nasjonale sikkerhetsrisikoer på det tidspunktet.

Tidligere bekymringer oppsto i oktober 2024 da en funksjon som la Claude operere direkte på en brukers datamaskin, fikk sikkerhetseksperter til advare om potensiell manipulering via hurtig injiting Gjennom ekstern fil eller webs.

okta lanserte en plattform i februar rettet mot å Unifying Oversight, og firms som delinea og

Samtidig installeres den tekniske rørleggerarbeidet for disse agentene. Anthropic’s Model Context Protocol (MCP), opprettet i november 2024, får trekkraft som en standard for hvordan AI-agenter samhandler med eksterne data og verktøy over HTTP eller lokale tilkoblinger. Openai adopterte det nettopp, etter Microsoft, AWS og Google, og potensielt gir kommunikasjonsveiene for fremtidige virtuelle ansatte.

Clintons advarsel stemmer overens med Anthropics konsistente offentlige holdning til å håndtere AI-risikoer. Selskapet ba berømt om presserende global regulering tilbake i november 2024 og I mars 2025, til tross for at de samtidig fjernet noen eldre frivillige sikkerhetsløper fra nettstedet. Som et sterkt finansiert (å skaffe 3,5 milliarder dollar i februar 2025) og innflytelsesrike AI-laboratorium, ser antropisk ut som om han er forpliktet til å skyve AI-kapasiteter mens de brytes offentlig med sikkerhetsmessige implikasjoner.