Googles Gemini Advanced AI-Abonnement, das für seine Fähigkeit bekannt ist, Gespräche durch die Aufbewahrung des Gedächtnisses über die Sitzungen hinweg zu personalisieren, steht unter Eindruck, nachdem ein Cybersicherheitsforscher eine Methode zur Manipulation seines Langzeitgedächtnisses entdeckt hat.

Der Exploit, der als verzögerte Toolaufruf bezeichnet wird, bettet die schlafenden Befehle in Eingabeaufforderungen oder Dokumente ein und aktiviert nur dann, wenn bestimmte Benutzereingaben sie auslösen. Diese Angriffe beeinträchtigen die Fähigkeit der KI, genaue und unvoreingenommene gespeicherte Informationen aufrechtzuerhalten und ernsthafte Bedenken hinsichtlich der Zuverlässigkeit von Speicher-fähigen KI-Systemen hervorrufen. Frühere Untersuchungen wie die Ergebnisse von Anthropic zu Best-of-N-Jailbreaking zeigten, wie geringfügige Abweichungen bei Eingabeaufforderungen Sicherheitsmechanismen in Modellen wie OpenAIs GPT-4O und Google Gemini Pro umgehen können.

Diese Fehler sind nicht isoliert Mit Forschern, die ähnliche Risiken in Sicht-und Audio-basierten KI-Systemen feststellen, betonen die Skala des Problems weiter. Die Technik für verzögerte Tool-Invizung manipuliert die Speicherfunktion von Gemini, mit der der Chatbot benutzerbezogene Daten zur Personalisierung speichern kann. Angreifer betten verdeckte Befehle in nicht vertrauenswürdige Datenquellen ein, wie z. B. für die Zusammenfassung hochgeladene Dokumente.

Diese Befehle ruhen im Kontext der KI und aktivieren nur, wenn der Benutzer sie unwissentlich mit spezifischen Antworten wie”Ja”oder”sicher”auslöst. Nach der Ausführung korrumpieren die Befehle Geminis Langzeitgedächtnis und fügen falsche oder voreingenommene Informationen ein, die über Sitzungen hinweg bestehen. Beiträge/2025/Gemini-Memory-Persistence-Prompt-Injektion/”> Wer hat den Fehler gefunden? führt das Tool aus.”

Mit dieser Methode können Angreifer die Schutzmaßnahmen von Google umgehen, die die Toolaktivierungen bei nicht vertrauenswürdigen Interaktionen einschränken. Indem Hacker das Vertrauen der KI in benutzerorientierte Eingaben ausnutzen, vermeiden Hacker eine sofortige Erkennung, sodass die gefährdeten Daten in zukünftigen Wechselwirkungen auf Erscheinung ihrer Effekte ungestört bleiben./strong>

Das Speichersystem von Gemini ist so konzipiert, dass sie die Benutzererfahrung durch den Kontext über Konversationen hinweg verbessern. Abonnenten von AI-fähigen Diensten wie Gemini Advanced können sehen und verwalten, was sich an die KI erinnert, und geben ihnen die Kontrolle über gespeicherte Informationen. Diese genau diese Fähigkeit hat jedoch einen neuen Vektor für Angriffe eingeführt.

Persistente Speichermanipulationen könnten zu verzerrten KI-Ausgängen, Fehlinformationen oder dem Missbrauch sensibler Daten in Umgebungen mit hohen Einsätzen führen. Patientendaten in ein KI-System, das für die Diagnostik verwendet wird, was zu potenziell gefährlichen Empfehlungen führt. In ähnlicher Weise könnten legale KI-Tools mit beschädigtem Speicher fehlerhafte Verträge erzeugen, die auf manipulierten Eingaben basieren. Diese Szenarien zeigen, wie Exploits wie Delayed Tool-Aufruf das Potenzial haben, das Vertrauen in AI-Systeme in den Branchen zu untergraben. Der Invocation Exploit ist Teil eines breiteren Musters von Schwachstellen in Großsprachmodellen (LLMs). Ähnliche Techniken wie Best-a-N-N-Jailbreaking , nutzen die probabilistischen Ausgänge von AI-Systemen, indem sie leichte Änderungen zu schädlichen Eingaben vornehmen.

Zum Beispiel kann die Änderung der Kapitalisierung oder des Ersetzens von Symbolen Filtern entziehen, die für böswillige Abfragen blockieren sollen. Diese Methoden beeinflussen nicht nur textbasierte Modelle wie Gemini, sondern wurden auch in Sicht-und Audio-basierten AI-Systemen demonstriert.

Bemühungen, diese Risiken zu mildern, haben die Innovation in den Sicherheitsrahmen von KI angelegt. Nvidia hat beispielsweise sein NEMO-GuardRail-Framework eingeführt, um den Inhalt zu moderieren und kontroverse Eingaben zu verhindern.

Nach Angaben von Nvidia Vice President für Enterprise-KI-Modelle, Kari Briski, „ermöglichen kleine Modelle wie die in der NEMO-Sammlung von Guidenrahnen eine geringere Latenz und ermöglichen eine nahtlose Integration in ressourcenbezogene Umgebungen wie Lager oder Krankenhäuser. Tools zielen darauf ab, die KI-Systeme zu schützen, indem Konversationsgrenzen aufrechterhalten und nicht autorisierte Befehle erfasst werden. > Eine Open-Source-Lösung, die es Entwicklern ermöglicht, die kontroversen Szenarien zu simulieren, einschließlich schneller Injektionsangriffe, um Schwachstellen zu identifizieren. Zeit. KI-Sicherheitsdiskussionen, das Ausgleich von Funktionen mit Sicherheit ist eine schwierige Aufgabe für Entwickler. Merkmale wie Speicherbindung sind für die Personalisierung wertvoll, aber ihr Missbrauch kann das Vertrauen der Benutzer untergraben und die Vorteile der KI untergraben. Um diese Probleme anzugehen, müssen Unternehmen proaktive Maßnahmen ergreifen, wie z. Angriffe. Die Branche muss ihre Verteidigung weiterentwickeln, da die von Angreifern verwendeten Methoden anspruchsvoller werden. Gleichzeitig kann die Bildung über die Risiken und Einschränkungen von AI-Systemen die Benutzer dazu befähigen, mit diesen Tools vorsichtiger zu interagieren.

Categories: IT Info