Anthropics neue KI-Schild schneidet LLM-Jailbreaks um 95%-aber zu einem Preis

Anthropic hat ein neues Sicherheitssystem für seine Claude AI-Modelle eingeführt und die Erfolgsrate von Jailbreak-Angriffen von 86% auf nur 4,4% verringert.

Der neue Schutz des Unternehmens namens konstitutionelle Klassifizierer soll sowohl eingehende Eingabeaufforderungen als auch eingehende Eingabeaufforderungen filtern, die Eingabeaufforderungen und Eingabeaufforderungen filtern, die Eingabeaufforderungen und Einschaltanlagen filtern, die Eingabeaufforderungen und Eingabeaufforderungen gefiltert haben AI-generierte Antworten zur Verhinderung von Manipulationsversuchen.

Während dieses System eine der bisher effektivsten KI-Sicherheitsverteidigungen darstellt, bringt es auch Kompromisse mit, einschließlich einer Zunahme der Rechenkosten um 23,7% und gelegentlich Fehlalarme, die legitime Abfragen blockieren.

AI Jailbreaking has remained a persistent issue in large language models (LLMs), with adversaries using Kreative Techniken, um integrierte Einschränkungen zu umgehen. Angreifer haben KI-Schwachstellen erfolgreich durch Methoden wie Rollenspielszenarien und Formatierung von Tricks, die Inhalts Moderationsfilter verwirren, erfolgreich ausgenutzt.

Verwandte: AI-Sicherheitsindex 2024 Ergebnisse: OpenAI, Google, Meta, XAI fällen kurz; Anthropisch oben

, während AI-Entwickler konsequent spezifische Exploits gepatcht haben, Forscher gewarnt haben , dass kein KI-Modell vorhanden ist Bisher war völlig resistent gegen Jailbreaks. Das Unternehmen hat im AI Safety Index 2024 den höchsten Platz und die Konkurrenten wie OpenAI, Google und Meta übertroffen.

Wenn sich die KI-Funktionen erweitern, entwickeln sich die mit Jailbreaks verbundenen Risiken jedoch weiter, was präventive Sicherheitsstrategien kritischer als je zuvor macht. Time Bandit’Exploit umgeht OpenAI-Sicherheitsvorkehrungen mit Zeitverwirrung

Warum Jailbreaking AI-Modelle ein wachsendes Problem ist. von der Erzeugung von Inhalten im Zusammenhang mit Waffen, Cyberkriminalität oder anderen eingeschränkten Themen. Benutzer haben jedoch wiederholt Wege gefunden, diese Schutzmaßnahmen zu umgehen. Zu den allgemeinen Jailbreak-Techniken gehören:

prompt Engineering , wobei die Angreifer die KI zum Rollenspiel als fiktiven Charakter ohne ethische Einschränkungen anweisen.

Formatierung Manipulation wie das Einfügen von Sonderzeichen oder Änderung von Satzstrukturen, um Inhaltsfilter zu umgehen. kann weiterhin interpretieren, während Sicherheitsschichten die Anfrage nicht erkennen. Trotz der anhaltenden Verfeinerungen der KI-Sicherheit müssen Forscher noch ein System entwickeln, das völlig gegen diese Techniken resistent ist. Fehlern

Anthropics Ansatz unterscheidet sich von früheren Sicherheitsbemühungen von AI, indem ein externer Filter eingeführt wird, anstatt das KI-Modell selbst zu modifizieren.

Die verantwortlichen Skalierungsrichtlinie des Unternehmens beschreibt die Notwendigkeit erweiterter Schutzmaßnahmen, bevor fortschrittlichere Modelle bereitgestellt werden. Der konstitutionelle Klassifizierer ist ein Beispiel dafür, wie das Unternehmen die Sicherheit priorisiert, wenn KI anspruchsvoller wird. Modellarchitektur, Anthropic entwickelte den konstitutionellen Klassifizierer als externes System, das sowohl Benutzereingaben als auch AI-generierte Ausgänge abfängt und bewertet.

Der Klassifizierer fungiert als Filter und analysiert Anfragen nach Mustern, die auf Jailbreak-Versuche hinweisen. Wenn eine Abfrage als verdächtig eingestuft wird, wird sie vor dem Erreichen des KI-Modells blockiert und verhindern unbeabsichtigte Antworten. p>

Das System wurde unter Verwendung synthetischer Daten unter Verwendung von Beispielen für akzeptable und inakzeptable AI-erzeugte Interaktionen trainiert. Anthropisch verwendete diesen Ansatz, um den Klassifikator einer Vielzahl von kontroversen Techniken auszusetzen, einschließlich Variationen in Sprache, Syntax und Formatierung.

Diese Datensätze wurden in mehrere Sprachen übersetzt und basierend auf bekannten Exploit-Stilen verfeinert, um eine breitere Wirksamkeit zu gewährleisten. Das System, das auf MIT Technology Review Die Bedeutung, die schwerwiegendsten Jailbreak-Versuche abzielen.

„Es gibt Jailbreaks, die ein kleines bisschen schädliches Zeug aus dem Modell herausholen, wie sie vielleicht das Modell schwören lassen“, erklärte Sharma. OFF vollständig. könnte Claude zwingen, zehn eingeschränkte Fragen zu beantworten. Die Herausforderung stellte die Teilnahme von 183 Tester, darunter erfahrene AI-Jailbreaker und Sicherheitsforscher, die zusammen über 3.000 Stunden damit versuchten, das System zu umgehen. eingeschränkte Fragen. Am nächsten kam, was jemand kam, war erfolgreich, den Filter auf fünf von zehn Fragen zu umgehen. Darüber hinaus führte Anthropic in einem separaten automatisierten Test 10.000 mit AI-generierte Jailbreak-Versuche gegen seinen Klassifikator durch.

verwandt: y0u ha5ε tu wr1tε l1ke THL5, um GPT-4O, Gemini Pro und Claude 3.5 Sonnet AI-Sicherheitsmaßnahmen zu brechen

ohne Verteidigungsschicht, die Das Modell ist in 86% der Fälle fehlgeschlagen und lieferte Antworten, die hätte blockiert werden müssen. Mit dem Klassifizierer sank diese Fehlerrate auf 4,4%./opera_2025-02-03_18-58-11-1024×619.jpg”>. stark.”Es ist selten, dass Bewertungen in dieser Größenordnung durchgeführt werden”, sagte Robey.”Sie zeigten eindeutig Robustheit gegen Angriffe, von denen bekannt ist, dass sie die meisten anderen Produktionsmodelle umgehen.”

“Verteidigungen richtig machen ist immer ein Balanceakt”, fügte Robey hinzu und setzte sich für geschichtete Sicherheitsstrategien ein, die verschiedene Erkennungstechniken integrieren. Erhöhte Kosten

Während Anthropics konstitutioneller Klassifizierer einen wesentlichen Fortschritt in der KI-Sicherheit darstellt, führt auch bestimmte Kompromisse ein.

Einige Benutzer berichteten, dass der Klassifizierer gelegentlich harmlose Fragen markiert hat, insbesondere in technischen Bereichen wie Biologie und Chemie, während das System verfeinert wurde, um diese Fälle zu reduzieren, und führt immer noch zu einer falschen positiven Rate von 0,38%. Dies bedeutet, dass einige gültige Anfragen weiterhin abgelehnt werden können. Infolgedessen erhöht die Implementierung des Systems die Betriebskosten um 23,7%. Dies könnte die Bereitstellung teurer machen, insbesondere für Unternehmen, die groß angelegte AI-Anwendungen ausführen. Das Engagement des Unternehmens für die KI-Sicherheit war ein definierendes Merkmal seines Ansatzes, wie in seiner verantwortlichen Skalierungspolitik beschrieben, die strenge Sicherheitsbewertungen vor dem Start fortgeschrittenerer KI-Modelle vorschreibt. Das Ausgleich von Sicherheit und Benutzerfreundlichkeit bleibt jedoch eine fortlaufende Herausforderung. und Regulierungsbehörden erhöhen ihre Prüfung der KI-Modelle. Mit Bedenken hinsichtlich von AI-gesteuerten Fehlinformationen, Cyber-Bedrohungen und nicht autorisierten Anwendungsfällen drängen die Regulierungsbehörden auf größere Transparenz-und strengere Sicherheitsprotokolle. wie das EU-AI-Gesetz, das darauf abzielt, klare Richtlinien für das KI-Risikomanagement festzulegen. Das Unternehmen steht jedoch auch aus anderen Gründen vor, insbesondere in Bezug auf seine Unternehmenspartnerschaften. Die Investitionen in Höhe von 2 Milliarden US-Dollar von Google werden derzeit von der britischen Wettbewerbs-und Märktungsbehörde (CMAs) untersucht. Dies bewertet, ob eine solche finanzielle Unterstützung Google übermäßigen Einfluss auf die AI-Entwicklung hat. Eine Handvoll großer Technologieunternehmen erlangt möglicherweise zu viel Kontrolle über AI-Innovation. Während Anthropic sich als Anwalt für verantwortungsbewusste KI positioniert hat, bleiben die Finanzierungsquellen und-partnerschaften ein Thema der Debatte innerhalb der Industrie-und politischen Kreise. Stark>

Trotz seines Erfolgs bei der Blockierung der meisten bekannten Jailbreaks ist der konstitutionelle Klassifikator keine absolute Lösung. Jailbreaker entwickeln ständig neue Techniken, um KI-Modelle zu manipulieren, und die Forscher warnen, dass zukünftige Angriffe noch anspruchsvoller werden könnten. Dadurch kann AI sie interpretieren, während Sicherheitsschichten die Manipulation nicht erkennen.

Yuekang Li, ein Forscher an der Universität von New South Wales, warnte, dass solche Methoden ein ernstes Problem darstellen könnten.”Ein Benutzer könnte mit dem Modell mit verschlüsselten Text kommunizieren, wenn das Modell intelligent genug ist und diese Art von Verteidigung problemlos umgehen”, kommentierte Li zur MIT-Technologieüberprüfung. Verfassungsklassifizierer für weitere Tests. Finden Sie Schwächen im System. https://t.co/9y0fit79pn

-Jan Leike (@janleike) 3. Februar 2025

Durch Crowdourcing potenzielle Schwachstellen hofft das Unternehmen, vor der Schwellenstrategien vor der Entwicklung der Schwellenanfälle zu bleiben und die Angriffsstrategien entsprechend zu verfeinern..

Während das Unternehmen einen beeindruckenden Fortschritt bei der Reduzierung von Jail-Break-Schwachanlagen nachgewiesen hat, Die langfristige Wirksamkeit seines Ansatzes hängt davon ab, wie schnell er sich an neue Bedrohungen anpassen kann. Da sich die Regulierungskontrolle intensiviert und die Rahmenbedingungen für KI-Governance entwickeln, werden Unternehmen, die AI-Systeme einsetzen Laufendes Wettrüsten. Der konstitutionelle Klassifizierer von Anthropic stellt einen sinnvollen Schritt in Richtung sichererer KI-Systeme dar, unterstreicht jedoch auch die Herausforderungen, Sicherheit, Benutzerfreundlichkeit und Kosten in Einklang zu bringen.

Anthropics neue KI-Schild schneidet LLM-Jailbreaks um 95%-aber zu einem Preis

Published by All Things Windows on February 4, 2025

IT Info

Microsofts LinkedIn hat sich auf kurzfristige Videos verlagert-Profis werden es annehmen?

IT Info

So deaktivieren Sie das Chrome-Auto-Update in Windows 11 & 10

IT Info

Windows 11 Build 22635.4870 (KB5050087) bringt Sperrbildschirmänderungen im Beta-Kanal mit

Anthropics neue KI-Schild schneidet LLM-Jailbreaks um 95%-aber zu einem Preis

Published by All Things Windows on February 4, 2025

Related Posts

IT Info

Microsofts LinkedIn hat sich auf kurzfristige Videos verlagert-Profis werden es annehmen?

IT Info

So deaktivieren Sie das Chrome-Auto-Update in Windows 11 & 10

IT Info

Windows 11 Build 22635.4870 (KB5050087) bringt Sperrbildschirmänderungen im Beta-Kanal mit