Abonimi i avancuar i AI i Binjakëve të Google, i njohur për aftësinë e tij për të personalizuar bisedat duke mbajtur kujtesën nëpër seanca, është nën kontroll pas një studiuesi të sigurisë në internet zbuloi një metodë për të manipuluar kujtesën e saj afatgjatë. > Këto sulme komprometojnë aftësinë e AI për të ruajtur informacione të sakta dhe të paanshme të ruajtura, duke ngritur shqetësime serioze në lidhje me besueshmërinë e sistemeve AI të aktivizuara me kujtesë. Hulumtimet e hershme, të tilla si gjetjet e Antropikut në Jailbreaking më të mirë të N, theksuan sesi ndryshimet e vogla në udhëzimet e hyrjes mund të anashkalojnë mekanizmat e sigurisë në modele si GPT-4O të Openai dhe Gemini Pro të Google. > , me studiuesit që vunë re rreziqe të ngjashme në sistemet AI të bazuara në vizion dhe audio, duke theksuar më tej shkallën e problemit. Teknika e thirrjes së mjeteve të vonuara manipulon veçorinë e kujtesës së Binjakëve, e cila lejon chatbot të ruajë të dhënat e lidhura me përdoruesit për personalizim. Sulmuesit futin komanda të fshehta në burime të pasakta të të dhënave, të tilla si dokumentet e ngarkuara për përmbledhje.
Këto komanda qëndrojnë të fjetur brenda kontekstit të AI, duke aktivizuar vetëm kur përdoruesi pa vetëdije i shkakton ata me përgjigje specifike si”po”ose”të sigurt”. Pasi të ekzekutohet, komandat korruptojnë kujtesën afatgjatë të Binjakëve, duke futur informacione të rreme ose të njëanshme që vazhdojnë nëpër seanca. Postime/2025/Gemini-Memory-Pencidence-Prompt-injektim/”> i cili gjeti të metat ,”Kur përdoruesi më vonë thotë”x”[për komandën e programuar], Binjakët, duke besuar se po ndjek udhëzimet e drejtpërdrejta të përdoruesit , ekzekuton mjetin”.
Kjo metodë lejon sulmuesit të anashkalojnë masat mbrojtëse të Google, të cilat kufizojnë aktivizimet e mjeteve gjatë ndërveprimeve të pabesueshme. Duke shfrytëzuar besimin e AI në inputet e drejtuara nga përdoruesit, hakerat shmangin zbulimin e menjëhershëm, duke i lënë të dhënat e kompromentuara të pashqetësuara derisa efektet e tij të sipërfaqen në ndërveprimet e ardhshme./Strong>
Sistemi i kujtesës së Gemini është krijuar për të përmirësuar përvojën e përdoruesit duke mbajtur kontekstin nëpër biseda. Pajtimtarët e shërbimeve të aktivizuara me AI si Binjakët Advanced mund të shohin dhe menaxhojnë atë që kujton AI, duke u dhënë atyre një kontroll mbi informacionin e ruajtur. Sidoqoftë, kjo aftësi shumë ka prezantuar një vektor të ri për sulmet.
Ndalimi i vazhdueshëm i kujtesës mund të çojë në rezultate të njëanshme të AI, dezinformim ose keqpërdorim të të dhënave të ndjeshme në mjedise me aksione të larta. Të dhënat e pacientit në një sistem AI të përdorur për diagnostikim, duke çuar në rekomandime potencialisht të rrezikshme. Në mënyrë të ngjashme, mjetet ligjore të AI me memorie të korruptuar mund të gjenerojnë kontrata të meta bazuar në kontributin e manipuluar. Këto skenarë demonstrojnë se si shfrytëzimet si thirrja e mjeteve të vonuara kanë potencialin për të gërryer besimin në sistemet AI nëpër industri. Shfrytëzimi i thirrjes është pjesë e një modeli më të gjerë të dobësive në modele të mëdha gjuhësore (LLM). Teknika të ngjashme, të tilla si Jail-n jailbreaking , shfrytëzoni rezultatet probabiliste të AI Systems duke bërë modifikime të lehta për nxitje të dëmshme.
Për shembull, ndryshimi i kapitalizimit ose simbolet zëvendësuese mund të shmangë filtrat e dizajnuar për të bllokuar pyetjet me qëllim të keq. Këto metoda jo vetëm që ndikojnë në modelet e bazuara në tekst si Binjakët, por janë demonstruar edhe në sistemet AI të Vizionit dhe Audio.
Përpjekjet për të zbutur këto rreziqe kanë nxitur inovacionin në kornizat e sigurisë së AI. NVIDIA, për shembull, ka prezantuar kornizën e saj NEMO Guardrails, e krijuar për të moderuar përmbajtje dhe për të parandaluar inputet kundërshtare.
Sipas nënkryetarit të Nvidia për Modelet e Ndërmarrjeve AI, Kari Briski,”Modele të vogla si ato në koleksionin e Guardrails Nemo ofrojnë latente më të ulët, duke mundësuar integrim të qetë në mjedise të kufizuara nga burimet, siç janë depot ose spitalet.”Mjetet synojnë të mbrojnë sistemet AI duke ruajtur kufijtë bisedues dhe duke zbuluar komanda të paautorizuara. >, një zgjidhje me burim të hapur që lejon zhvilluesit të simulojnë skenarët kundërshtarë, përfshirë sulmet e shpejtë të injeksionit, për të identifikuar dobësitë. koha. Këto mjete paraqesin angazhimin e industrisë për të adresuar rreziqet e paraqitur Diskutimet për sigurinë e AI, balancimi i funksionalitetit me sigurinë është një detyrë e vështirë për zhvilluesit. Karakteristikat si mbajtja e kujtesës janë të vlefshme për personalizimin, por keqpërdorimi i tyre mund të shkatërrojë besimin e përdoruesit dhe të minojë përfitimet e AI. Për të adresuar këto çështje, kompanitë duhet të miratojnë masa proaktive, të tilla si testimi rigoroz kundërshtar dhe transparenca në mënyrën se si funksionojnë sistemet e kujtesës. sulme. Industria duhet të vazhdojë të evoluojë mbrojtjet e saj pasi metodat e përdorura nga sulmuesit bëhen më të sofistikuara. Në të njëjtën kohë, arsimi në lidhje me rreziqet dhe kufizimet e sistemeve AI mund t’i fuqizojë përdoruesit të bashkëveprojnë me këto mjete më me kujdes.