Google DeepMind-Forscher schlagen eine andere Möglichkeit vor, sich gegen Manipulationen zu sichern, um das Modelltraining oder einfache Filter zu einer architektonischen Verteidigung namens Camel (Funktionen für maschinelles Lernen) zu sichern.

In einem Papier veröffentlicht auf Arxiv Angewendet von Camel festgelegte Software-Sicherheitsideen wie die Verfolgung und Kontrollfluss-Integrität. orchestriert durch schnelle Injektionsangriffe. Sicherheitsforscher haben im Oktober 2023 Schwachstellen im multimodalen GPT-4V von OpenAI hervorgehoben, wo Anweisungen, die in Bildern versteckt sind, das Modell manipulieren konnten. Rehberger zeigte Exploits gegen Speicherfunktionen von Modellen wie Googles Gemini Advanced (Februar 2025) und zuvor OpenAIs Chatgpt (September 2024), wie indirekte Einspritzung, vom Agenten verarbeitete Dokumente oder E-Mails eingeschoben und zur korrumpierten Daten oder Siphon-Informationen verwendet werden können. Diese Vorfälle unterstreichen die Herausforderung, wirklich robuste Verteidigung gegen Gegner zu schaffen, die böswillige Befehle in scheinbar gutartigen Dateneingaben verbergen. Es verfeinert das „Dual LLM“-Mustion, ein Ansatz, der von Experten wie Simon Willison diskutiert wird, der auch den”prompt Invention”-Drohklasse In 2022 222222222222222222222222222222222. Code, der die beabsichtigte Aufgabe des Benutzers darstellt. Dieser Code wird dann von einem benutzerdefinierten Dolmetscher ausgeführt, anstatt die LLM-Tool-Aufrufe direkt orchestrieren zu lassen. Dieser Dolmetscher wird zum Kontrollzentrum. Wenn der Code mit nicht vertrauenswürdigen Daten interagieren muss (z. B. zusammenfassen einer E-Mail), ruft er eine unter Quarantäne gestaltete LLM auf, die einfach anhand eines definierten Schemas analysiert oder extrahiert, ohne dass die Fähigkeit, externe Tools selbst zu nennen, selbst anrufen. Funktionen in diesem Sicherheitskontext funktionieren wie feinkörnige, unverzeihbare Tags, die an Daten angeschlossen sind, die deren Herkunft (z. B. Benutzereingabe, ein spezifisches Tool) und Zugriffsrechte (z. B. Benutzer oder Tools) angeben, und ziehen Sie inspirieren von etablierten Computersicherheitssystemen inspiriert. Die Forscher erklären in ihrem Papier und ermöglichen detaillierte Sicherheitsregeln, die auf Prinzipien wie Information Flow Control (Tracking-Datenausbreitung) und Steuerflussintegrität (sicherstellen, dass die Ausführung zulässigen Pfaden befolgt). Vor der Ausführung einer Funktion, die mit der Außenwelt interagiert (ein Tool-Aufruf), konsultiert der Interpreter vordefinierte Sicherheitsrichtlinien und prüft, ob die Funktionen der Daten die beabsichtigte Aktion ermöglichen. Aufgaben in Domänen wie Arbeitsbereich, Bankwesen, Reisen und Slack. Diese Leistung steht im Gegensatz zu anderen Verteidigungsmechanismen, die auf demselben Benchmark bewertet wurden, wie z. B. Spotlighting (Eingabefilterung) oder schnelles Sandwich (Wiederholungsanweisungen).

Diese Sicherheitsschicht ist nicht kostenlos. The analysis showed CaMeL typically requires around 2.7 to 2.8 times more tokens (both input and output) on average compared to standard LLM tool use, primarily because the Privileged LLM might need several attempts to generate error-free Python code for the interpreter.

Agent utility saw some impact, particularly in tasks requiring interaction with poorly documented external APIs, though more advanced LLMs performed better, suggesting improvements are possible Wenn sich die Basismodelle entwickeln. Eine bemerkenswerte Stärke, die hervorgehoben wurde, ist Camels Ansatz, „nicht auf mehr KI zu verlassen, um AI-Probleme zu lösen“, und sie mit probabilistischen Abwehrkräften zu kontrastieren, die möglicherweise hohe, aber unvollständige Erkennungsraten erreichen können. Nebenkanalangriffe, bei denen ein Angreifer Informationen durch Beobachtung des Systemverhaltens anstelle, anstatt direkt auf Daten zuzugreifen, bleibt ein Problem. Informationen.

Um einigen dieser Risiken entgegenzuwirken, enthält das Kamel einen”strengen”Interpretationsmodus, der eine strengere Datenabhängigkeitsverfolgung für Steuerflussanweisungen erzwingt und Operationen innerhalb von Schleifen oder Bedingungen von der Bedingungsvariablen selbst abhängen. Dies bietet einen stärkeren Schutz, erfordert jedoch möglicherweise mehr Benutzerbestätigungen für Aktionen, die sensible Daten beinhalten und die Ermüdung der Benutzer riskieren. Standard-Eingabeaufforderung, wie ein Schurkenbenutzer, der versucht, den Agenten gegen die Richtlinien zu missbrauchen, oder ein böswilliges „Spionagewerkzeug“, der versuchte, passiv durch den Agenten verarbeitet zu werden, Szenarien, die in Abschnitt 7 des Papiers diskutiert wurden. ein unterschiedlicher, architekturster Ansatz. Wenn KI-Agenten autonomer werden-eine zukünftige von Branchenexperten wie Ciso Jason Clinton von Anthropic, die kürzlich die Ankunft von „virtuellen Mitarbeitern“-Agenträgern prognostizierten-können solche strukturierten Sicherheitsarchitekturen zunehmend notwendiger werden.

Categories: IT Info