Mark Russinovich, Chief Technology Officer von Microsoft Azure, hat die wachsenden Sicherheitsbedenken im Zusammenhang mit generativer KI hervorgehoben. Bei seiner Rede auf der Microsoft Build 2024-Konferenz in Seattle betonte Russinovich die Vielfalt Eine Reihe von Bedrohungen, mit denen Chief Information Security Officers (CISOs) und Entwickler bei der Integration generativer KI-Technologien umgehen müssen. Er betonte die Notwendigkeit eines multidisziplinären Ansatzes für die KI-Sicherheit, der die Untersuchung von Bedrohungen aus verschiedenen Blickwinkeln wie KI-Anwendungen, zugrunde liegendem Modellcode, API-Anfragen, Trainingsdaten und potenziellen Hintertüren umfasst.

Datenvergiftung und Modellfehlklassifizierung

Eines der Hauptanliegen, die Russinovich angesprochen hat, ist Datenvergiftung. Bei diesen Angriffen manipulieren Angreifer die Datensätze, die zum Trainieren von KI-oder maschinellen Lernmodellen verwendet werden, was zu beschädigten Ergebnissen führt. Er veranschaulichte dies anhand eines Beispiels, bei dem digitales Rauschen, das einem Bild hinzugefügt wurde, dazu führte, dass die KI einen Panda fälschlicherweise als Affen klassifizierte. Diese Art von Angriff kann besonders heimtückisch sein, da bereits eine geringfügige Änderung, wie etwa das Einfügen einer Hintertür, die Leistung des Modells erheblich beeinträchtigen kann.

Russinovich diskutierte auch das Problem von Hintertüren in KI-Modellen. Obwohl sie oft als Schwachstelle angesehen werden, können Hintertüren auch dazu dienen, die Authentizität und Integrität eines Modells zu überprüfen. Er erklärte, dass Hintertüren verwendet werden könnten, um einen Fingerabdruck eines Modells zu erhalten, sodass Software seine Authentizität überprüfen könne. Dabei werden dem Code eindeutige Fragen hinzugefügt, die von echten Benutzern wahrscheinlich nicht gestellt werden, wodurch die Integrität des Modells sichergestellt wird.

Prompt-Injection-Techniken

Eine weitere bedeutende Bedrohung, die Russinovich hervorhob, sind Prompt-Injection-Techniken. Dabei werden versteckte Texte in Dialoge eingefügt, was zu Datenlecks führen oder das KI-Verhalten über die beabsichtigten Operationen hinaus beeinflussen kann. Wir haben gesehen, wie anfällig GPT-4 V von OpenAI für diese Art von Angriff ist.  Er demonstrierte, wie ein versteckter Text, der in einen Dialog eingeschleust wird, zum Verlust privater Daten führen kann, vergleichbar mit Cross-Site-Scripting-Exploits in der Web-Sicherheit. Dies erfordert die Isolierung von Benutzern, Sitzungen und Inhalten voneinander, um solche Angriffe zu verhindern.

Im Vordergrund der Bedenken von Microsoft stehen Probleme im Zusammenhang mit der Offenlegung sensibler Daten, Jailbreaking-Techniken zur Überwindung von KI-Modellen und der Erzwingung Dritter-Anwendungen und Modell-Plugins von Drittanbietern, um Sicherheitsfilter zu umgehen oder eingeschränkte Inhalte zu erstellen. Russinovich erwähnte eine spezielle Angriffsmethode, Crescendo, die Inhaltssicherheitsmaßnahmen umgehen kann, um ein Modell dazu zu bringen, schädliche Inhalte zu generieren.

Ganzheitlicher Ansatz zur KI-Sicherheit

Russinovich verglich KI-Modelle mit „wirklich klugen, aber jungen oder naiven Mitarbeitern“, die trotz ihrer Intelligenz anfällig für Manipulationen sind und ohne strenge Aufsicht gegen die Richtlinien einer Organisation verstoßen können. Er betonte die inhärenten Sicherheitsrisiken großer Sprachmodelle (LLMs) und der Es sind strenge Leitplanken erforderlich, um diese Schwachstellen abzuschwächen.

Russinovich hat eine generative KI-Bedrohungskarte entwickelt, die die Beziehungen zwischen diesen verschiedenen Elementen darstellt. Diese Karte dient als entscheidendes Werkzeug zum Verständnis und zur Bewältigung der Vielschichtigkeit der KI-Sicherheit Er lieferte ein Beispiel dafür, wie das Einfügen verfälschter Daten auf einer Wikipedia-Seite, die als Datenquelle bekannt ist, zu langfristigen Problemen führen kann, selbst wenn die Daten später korrigiert werden. Dies macht das Aufspüren der verfälschten Daten schwierig existiert in der Originalquelle.

Categories: IT Info