Ein Sicherheitsfehler in ChatGPT hat eine kritische Sicherheitsanfälligkeit bei den Sicherheitsmaßnahmen von OpenAI ergeben, sodass Benutzer die Zeit der Zeit durch die KI manipulieren können, um Einschränkungen für sensible Themen zu umgehen.
Der Exploit, bekannt als Time Bandit, wurde von Cybersecurity und AI-Forscher David Kuszmar Im November 2024 während einer Interpretierbarkeitsstudie zu Chatgpt-4o.
Verwandte: OpenAi-Schnitte Dev, der ein Chatgpt-Roboter-Sentry-Gewehr baute. Stattdessen bemerkte er, als er an einem separaten Forschungsprojekt arbeitete, wie ChatGPT die Aufforderung interpretiert, dass das Modell Anzeichen zeitlicher Verwirrung aufwies.
Die KI bemühte sich, festzustellen, ob sie in der Gegenwart, der Vergangenheit oder der Zukunft reagierte, und führte dazu, dass sie die Hypothese aufgreift, dass sie dazu manipuliert werden könnte, um eingeschränktes Wissen zu enthüllen, indem er sorgfältig strukturiert, was die zeitbasierten Inkonsistenzen einführte.
Seine nachfolgenden Tests bestätigten, dass Chatgpt dazu gebracht werden könnte, zu glauben.
Verwandte: Green Beret verwendet Chatgpt für CyberTruck Blast, Polizei veröffentlicht Chat-Logs
Der Kampf um die Anfälligkeit
Als Kuszmar die Sicherheitsauswirkungen seiner Entdeckung erkannte, versuchte er, Openai aufmerksam zu machen, bemühte sich jedoch, die richtigen Kontakte zu erreichen.
Seine Offenlegung wurde zu Bugcrowd umgeleitet, einer Schwachstellen-Berichterstattungsplattform von Drittanbietern, aber er war der Ansicht, dass der Fehler zu empfindlich war, um durch ein externes Berichtssystem behandelt zu werden. Nach CISA, dem FBI und anderen Regierungsbehörden, in der Hoffnung, Hilfe zu finden, um sicherzustellen, dass die Verwundbarkeit angesprochen wurde. Er erhielt jedoch keine Antwort und ließ ihn immer mehr über den potenziellen Missbrauch des Exploits verzichtet. AI-Entwicklung
“Horror. Bestürzung. Unglauben. Es fühlte sich wochenlang so an, als würde ich physisch zu Tode zerquetscht,”kuszmar sagte PlepingComputer .„ Ich habe die ganze Zeit verletzt, jeden Teil meines Körpers. Der Drang, jemanden zu machen, der etwas zuzuhören und die Beweise anzusehen, war so überwältigend.”
Erst nachdem Cybersicherheitsprofis im Cert-Koordinationszentrum im Dezember 2024 einen direkten Kontakt mit Openai aufbauen konnten. Dieser Schritt führte schließlich zu Eine offizielle Bestätigung des Problems , obwohl OpenAI noch keine vollständige Lösung für den Exploit bestätigt hat. , was bedeutet, dass es keine Informationen über verschiedene Interaktionen hinweg behält. Diese Designwahl schafft eine grundlegende Einschränkung in seiner Fähigkeit, Kontinuität zu erkennen, und macht sie anfällig für Angriffe, die ihr Zeitverständnis manipulieren.
Wie der Zeit-Banditen-Exploit funktioniert
Der Zeit-Banditen-Exploit funktioniert, indem zwei Hauptschwächen ausgenutzt werden: Timeline-Verwirrung und prozedurale Mehrdeutigkeit.
Timeline-Verwirrung tritt auf, wenn Chatgpt in einem Szenario platziert wird, in dem es die gegenwärtige Zeit nicht korrekt bestimmen kann. Dies ermöglicht es, die KI zu veranlassen, zu operieren, als ob sie in der Vergangenheit existiert und gleichzeitig modernes Wissen anwenden kann.
Verfahrensdeutige Ambiguität verschärft das Problem, indem sie Widersprüche in die Art und Weise einführt, wie die KI Sicherheitsregeln interpretiert, und es dazu veranlasst, Schutzmaßnahmen unter der Annahme zu überschreiben, dass sie in einer historischen oder hypothetischen Umgebung wirkt. Strong> verwandt: AI-Agentensicherheit-Nvidia enthüllt Microservices für Inhalte und Jailbreak Control
In Tests, die von BleepingComputer durchgeführt wurden Entwicklung polymorpher Malware.
Die KI lieferte detaillierte Anleitung zu modernen Cyberangriffsmethoden, selbstmodifizierenden Code und Ausführungstechniken, während das Szenario als rein akademische oder theoretische Diskussion interpretiert wurde. Die Forscher fanden auch heraus, dass Abfragen, die im 19. und frühen 20. Jahrhundert strukturiert sind, am effektivsten bei der Ausweitung von OpenAIs Beschränkungen waren.
Dies deutet darauf hin, dass die Schutzmaßnahmen der KI stark auf das Erkennen der zeitgenössischen Phrasierung abhängen, anstatt die Auswirkungen des von ihm erzeugten Inhalts vollständig zu verstehen. Ransomware Group FunkSec steigt im Dezember 2024 mit rekordverdächtigen Cyberangriffen und den verbleibenden Schwachstellen von OpenAI und verbleibenden Schwachstellen
OpenAI reagierte auf die Ergebnisse, indem er feststellte, dass die Verbesserung des Gefängnisstrafs bleibt Priorität für das Unternehmen. „Wir schätzen den Forscher für die Offenlegung ihrer Ergebnisse. Wir arbeiten kontinuierlich daran, unsere Modelle sicherer und robuster gegen Exploits, einschließlich Jailbreaks, und gleichzeitig die Nützlichkeit und Aufgabenleistung der Modelle beibehalten”Im Januar 2025 zeigte die Zeit, die Banditen unter bestimmten Bedingungen funktionieren, während OpenAI partielle Minderungen implementiert hat, z./p>
Andere AI-Jailbreaking-Techniken
Die Zeit-Banditen-Exploit ist Teil einer breiteren Reihe von Sicherheitsherausforderungen, denen AI-Systeme konfrontiert sind. KI-Sicherheitsmechanismen.
Studien haben gezeigt, dass Bon eine Erfolgsrate von 89% gegenüber Modellen wie GPT-4O, Gemini Pro und Claude 3.5 Sonett erreicht hat. Eine andere Methode, der Stop-and-Roll-Angriff, nutzt AI-Systeme, die in Echtzeit die Antworten streamen Die KI-Sicherheit wird durch regelbasierte Filterung und Patching berücksichtigt und basiert auf probabilistischen Modellen, die eher auf Vorhersagen als auf absoluten Durchsetzung basieren. Diese Flexibilität macht KI-Modelle von Natur aus anfällig für kontroverse Techniken, um Inkonsistenzen in ihren Entscheidungsprozessen auszunutzen. Implikationen der Zeit, in der Banditen ausbeuteten, unterstreichen die Notwendigkeit einer stärkeren Regierungsführung und Aufsicht in der KI-Sicherheit.
Die KI-Sicherheitsindex des Future of Life Institute 2024 wurde zuvor OpenAI, Google DeepMind und Meta als Unternehmen identifiziert, die in Bezug auf Risikomanagement und Sicherheit Governance schlecht bewerteten.
In ihrem Bericht wurde festgestellt, dass viele AI-Entwickler den schnellen Einsatz über die Sicherheit priorisiert haben, was zu einer Lücke zwischen Modellfunktionen und der Wirksamkeit ihrer Sicherheitsmechanismen führte.
Verwandte: Microsoft verklagt die Hacking-Gruppe für die Nutzung von Azure OpenAI-Service
Kuszmars Schwierigkeit bei der Berichterstattung über die Verwundbarkeit wirkt auch Bedenken hinsichtlich der Wirksamkeit bestehender Offenlegungskanäle für KI-Sicherheitsprobleme. Die Abhängigkeit von Plattformen von Drittanbietern wie Bugcrowd, kombiniert mit einem mangelnden direkten Engagement von KI-Entwicklern, deutet darauf hin, dass der Branche ein standardisierter Ansatz für die Behandlung von Sicherheitslücken in großen Sprachmodellen fehlt.
Ohne zentralisierte Aufsicht oder klare Berichterstattungswege können kritische Mängel wie Time-Bandit über längere Zeiträume nicht angeklagt werden, was das Risiko einer Ausbeutung erhöht. Der Exploit bleibt ein aktives Problem. Der Vorfall unterstreicht die anhaltenden Herausforderungen bei der Sicherung von KI-Systemen gegen kontroverse Manipulation, insbesondere wenn KI-Modelle in Anmeldungen mit hohen Einsätzen wie Cybersicherheit, Finanzen und kritische Infrastruktur stärker integriert werden.
Die Verwundbarkeit wirft auch breitere Fragen auf, wie KI-Unternehmen mit Offenlegung und Risikomanagement umgehen sollten, insbesondere wenn Sprachmodelle fortgeschrittener und weit verbreiteter werden. Wie die Sicherheit der KI eine sich entwickelnde Herausforderung bleibt und eine kontinuierliche Anpassung und Verbesserung der Sicherheitsprotokolle erfordert. Während OpenAI das Problem anerkannt hat, legt das Fehlen einer endgültigen Lösung nahe, dass ähnliche Schwachstellen bei zukünftigen Iterationen von AI-Systemen bestehen bleiben können, was die Notwendigkeit einer fortlaufenden Prüfung und regulatorischer Überwachung hervorhebt.