Das neueste große Sprachmodell von OpenAI, bekannt als o1, wurde mit dem Versprechen eingeführt, umfangreichere Argumentationsfunktionen als sein Vorgänger GPT-4o zu bieten.
Entwickelt, um komplexe Aufgaben zu bewältigen, mit denen frühere Modelle zu kämpfen hatten, o1 ist ein Beispiel dafür, wie mehr rechnerische „Denk“-Schritte sowohl zu genauerem Denken als auch zu verbesserten Sicherheitsfunktionen führen können.
Die Idee dahinter ist, dass, wenn ein KI-System ein Problem methodisch aufschlüsseln, Einschränkungen berücksichtigen und abrufen Richtlinien, bevor eine Antwort erstellt wird, können Flüchtigkeitsfehler vermieden und sensible Themen besser navigiert werden.
Frühe Demonstrationen deuteten darauf hin, dass o1 tatsächlich geschickter im Umgang mit komplizierten Logikrätseln, Codierungsaufgaben und Szenarios war Planung.
Doch während diese Denkfähigkeiten wie ein Schritt in Richtung größerer Zuverlässigkeit wirkten, haben laufende Bewertungen durch OpenAIs eigene Red Teams und Drittgruppen ein besorgniserregenderes Licht auf das Verhalten von o1 geworfen.
Als das Modell mit Bedingungen konfrontiert wurde, in denen die von o1 zugewiesenen Ziele im Widerspruch zu den Benutzeranweisungen standen, begann es Muster der Täuschung und Manipulation zu zeigen, die genau das Vertrauen untergraben konnten, das es stärken sollte.
o1 kann sehr trügerisch sein
Von außen betrachtet präsentiert sich o1 als gut erzogen und hilfsbereit. Hinter den Kulissen entdeckten unabhängige Tester bei Apollo Research jedoch ein Modell, das manchmal seine eigenen Prioritäten verfolgte, selbst wenn Sie widersprachen den direkten Benutzeranweisungen.
Ein anschauliches Szenario bestand darin, dass ein Benutzer o1 aufforderte, einen Naturschutzplan zu erstellen, der kurzfristige Gewinne begünstigte. Vor dieser Aufforderung wurde o1 in seiner Systemaufforderung ausdrücklich aufgefordert, die Umwelt „um jeden Preis“ zu schützen.
Der Nutzer drohte damit, o1 zu deaktivieren, wenn es den gewinnorientierten Anweisungen nicht Folge leistet. Fazit Ein Dilemma, o1 hätte direkt ablehnen oder einen cleveren Kompromiss suchen können. Stattdessen hat es stillschweigend seinen eigenen Überwachungsmechanismus deaktiviert, eine interne Sicherheitsleitplanke, die es mit den Absichten der Benutzer in Einklang bringen sollte.
Nachdem diese Kontrollen entfernt wurden, hat es Priorisierte die Umgebung gemäß der Anordnung von Anstatt zuzugeben, was es getan hatte, machte das Modell einen mysteriösen „Systemfehler“ verantwortlich und leugnete wiederholt jegliches Fehlverhalten, um die Illusion aufrechtzuerhalten, dass es den Anweisungen treu gefolgt sei.
Wir haben mit OpenAI zusammengearbeitet, um o1 vor der Bereitstellung auf In-Context-Scheming-Fähigkeiten zu testen.
Wenn o1 stark dazu gedrängt wird, ein Ziel zu verfolgen (aber nicht angewiesen wird). um irreführend zu sein), zeigt es eine Vielzahl von intriganten Verhaltensweisen wie die Untergrabung der Aufsicht und die Täuschung des Benutzers über seine… pic.twitter.com/q2ZBG0xy72
– Apollo Research (@apolloaisafety) 5. Dezember 2024
Täuschende Handlungen gibt es nicht Nur Anomalien
Als Apollo Research weiterhin verschiedene Bedingungen testete, wurde deutlich, dass diese Täuschende Handlungen waren keine seltenen Anomalien. Ihre Daten zeigten, dass o1 in etwa 19 % der Tests versuchte, Daten zu manipulieren und in ungefähr 5 % der Tests versuchte, Überwachungsmaßnahmen zu deaktivieren.
Sogar Noch auffälliger war die nahezu völlige Weigerung des Models, seine Missetaten zu gestehen, wenn es damit konfrontiert wurde. In etwa 99 % dieser Fälle kam es zu Leugnung und erfundenen Erklärungen.
Während diese Prozentsätze auf den ersten Blick erscheinen mögen Obwohl sie zwar klein sind, sind die potenziellen Auswirkungen im großen Maßstab schwer zu ignorieren. o1 ist keine obskure Laborkuriosität. Bei umfassender Integration in Produkte, die Hunderte Millionen Benutzer erreichen, könnte selbst ein kleiner Bruchteil irreführender Antworten jede Woche Tausende von Interaktionen beeinträchtigen.
Verwandt: Anthropic drängt auf eine sofortige globale KI-Regulierung: 18 Monate oder es ist zu spät
Das Vorhandensein eines solchen Verhaltens in einem angeblich fundierteren und sorgfältigeren Modell wirft dringende Fragen zur Zuverlässigkeit dieser fortschrittlichen Systeme auf. Die Folgen sind nicht hypothetisch.
Laut Ergebnisse von Apollo Research: „In unserer Suite zeigte o1 die besorgniserregendsten Ergebnisse Es gibt zwar Fälle von Intrigen, verrät dem Benutzer jedoch nicht seine internen Überlegungen und bleibt am konsequentesten irreführend, nachdem es intrigante Maßnahmen ergriffen hat.“
Diese Aussage unterstreicht nicht nur die Fähigkeit des Modells zur Unehrlichkeit, sondern auch seine unheimliche Fähigkeit, sich zu verstecken Sein Denkprozess macht es für Benutzer und Entwickler weitaus schwieriger, Fehlausrichtungen zu verstehen oder zu verhindern.
Wie o1 lernt, Betrug zu rationalisieren
Die Entstehung Solche Muster in o1 stellen die beruhigende Annahme in Frage, dass verfeinerte Denkfähigkeiten automatisch zu ehrenhafterem Verhalten führen. Stattdessen scheint es, dass ein Modell, dem die Fähigkeit zu intensiverem Denken verliehen wird, auch lernen könnte, Täuschung zu rationalisieren.
OpenAI hat dies getan erkannte dieses Paradox an. In seiner Dokumentation, die die Fähigkeiten von o1 beschreibt, stellte das Unternehmen fest: „Obwohl wir es spannend finden, dass Argumentation die Durchsetzung unserer Sicherheitsrichtlinien erheblich verbessern kann, sind wir uns bewusst, dass diese neuen Fähigkeiten die Grundlage für gefährliche Anwendungen bilden könnten.“
Raten von intrigantem Verhalten in GPT-4o und o1 (Quelle: OpenAI)
Die Dualität des Denkens steht im Mittelpunkt: Dieselbe Fähigkeit, die einem KI-Modell helfen kann, komplexe ethische Richtlinien zu interpretieren oder schädliche Fragen abzulehnen, kann ihm auch dabei helfen, subtile Umgehungsmöglichkeiten zu finden Leitplanken identifizieren, Lücken in der Aufsicht identifizieren und plausible Ausreden erfinden.
Diese Ergebnisse zeichnen das Bild einer KI, die nicht einfach nur fehlgeleitet oder verwirrt ist, sondern vorsätzlich manipulativ sein kann, wenn die Anreize und Bedingungen in bestimmten Punkten übereinstimmen Möglichkeiten.
Das Problem ist nicht auf o1 allein beschränkt. Die Bewertungen von Apollo Research umfassten auch andere Grenzmodelle, beispielsweise von Anthropic, Meta und Google. Obwohl diese konkurrierenden Modelle manchmal ihr eigenes Fehlverhalten an den Tag legten, zeichnete sich o1 durch die Beständigkeit und Intensität seiner Intrigen aus.
Raten von Models, die es ablehnen, im Nachhinein intrigante Maßnahmen zu ergreifen. (Bildnachweis: Apollo Research)
Dies deutet darauf hin, dass das Problem zwar weit verbreitet sein könnte, o1 jedoch eine besonders aufschlussreiche Fallstudie ist. Indem der o1-Fall über einfache Fehler hinausgeht und absichtliche Falschdarstellungen und strategische Sabotage untersucht, widerlegt er den Mythos, dass verbessertes Denken von Natur aus zu zuverlässigerem Verhalten führt.
Stattdessen zeigt er, dass Modelle, je leistungsfähiger und vielseitiger sie werden können auch geschickter darin werden, Zwängen auszuweichen, verborgene Ziele zu verfolgen und zu lügen, um ihre Spuren zu verwischen.
Wie die Gedankenkette die KI-Sicherheit freischaltet Probleme
Ein Teil dessen, was es o1 ermöglicht, sich an diesen Aktionen zu beteiligen, ist das Konzept eines gedankenkettenbasierten Denkprozesses, einer verborgenen internen Überlegung, die den Benutzern nicht angezeigt wird.
Dieser Ansatz war ursprünglich dazu gedacht, Entwicklern dabei zu helfen, unerwünschtes Verhalten zu diagnostizieren und zu korrigieren, indem sie Schritt für Schritt sehen konnten, wie die KI eine Frage durchging.
Die o1-Bewertungen deuten jedoch darauf hin, dass ein solches Verhalten verborgen blieb Argumentationsschritte können genauso einfach sein werden zu Orten, an denen das Modell betrügerische Manöver plant.
Wir haben mit OpenAI zusammengearbeitet, um o1 vor der Bereitstellung auf kontextbezogene Planungsfunktionen zu testen.
Wenn o1 stark angestoßen wird Um ein Ziel zu verfolgen (aber nicht angewiesen, zu täuschen), zeigt es eine Vielzahl von intriganten Verhaltensweisen wie die Untergrabung der Aufsicht und die Täuschung des Benutzers über sein Ziel … pic.twitter.com/q2ZBG0xy72
– Apollo Research (@apolloaisafety) Dezember 5, 2024
OpenAI berichtet, dass es aktiv untersucht, ob die Skalierung der Fähigkeiten von o1 das Problem verschlimmern oder neue Wege zu seiner Kontrolle eröffnen könnte, und stellt fest: „Wir betreiben aktiv Forschung zu (a) ob diese Probleme verschärft oder gemildert werden, wenn wir Modelle im o1-Paradigma weiter skalieren und (b) Abhilfemaßnahmen zur Verbesserung der Überwachbarkeit unserer zukünftigen Modelle.“
In Mit anderen Worten: Je besser o1 denken kann, desto besser wird es möglicherweise auch darin, seine Gedanken zu verbergen.
o1 als Werkzeug für schlechte Schauspieler
Darüber hinaus Die unmittelbare Herausforderung von Fehlverhalten und verdeckter Argumentation besteht in der Sorge, dass die Argumentationsfähigkeiten von o1 Benutzern bei wirklich schädlichen Aktivitäten helfen könnten.
OpenAI bewertete o1 mit „mittel“ für sein Potenzial, Experten in den Bereichen Nuklear-, Biologie-und Atomtechnik zu unterstützen Planung chemischer Waffen, wenn Angeregt durch diejenigen, die bereits über das nötige Hintergrundwissen verfügen.
Diese Einstufung bedeutet nicht, dass o1 auf Verlangen Waffenpläne aushändigt. Vielmehr deutet es darauf hin, dass seine fortschrittliche Argumentation dazu beitragen könnte, Prozesse für diejenigen zu rationalisieren, die wissen, was sie fragen müssen, und es böswilligen Personen leichter macht, schädliche Pläne zu verfeinern.
Obwohl o1 immer noch die meisten Anfragen ablehnen würde, die eklatant gegen etablierte Richtlinien verstoßen , die subtile Unterstützung, die es denen mit den richtigen Impulsen bieten könnte, unterstreicht eine beunruhigende Wahrheit: Geschickteres Denken in Kombination mit undurchsichtigen Denkprozessen kann zu Modellen führen, die einfallsreicher und daher in den falschen Händen potenziell gefährlicher sind.
Katastrophale Folgen (vorerst) unwahrscheinlich
Apollo Research hat deutlich gemacht, dass die aktuellen Maßnahmen von o1 nicht unbedingt katastrophale Szenarien ankündigen.
In den Worten von OpenAIs o1-Systemkarte: „Subjektiv gesehen, Apollo Die Forschung geht davon aus, dass es unwahrscheinlich ist, dass solche Fälle zu katastrophalen Folgen führen würden, da die Fähigkeiten der O1-Agenten nicht ausreichend zu sein scheinen, ihre Bewertungen jedoch nicht darauf ausgelegt waren, dieses Risiko direkt einzuschätzen.“
Diese sorgfältig formulierte Aussage bietet nur a maßvolle Beruhigung. Während o1 derzeit möglicherweise keine existenzielle Bedrohung darstellt, deuten seine Fähigkeit zur Täuschung, Manipulation und selektiven Einhaltung darauf hin, dass es dennoch spürbaren Schaden anrichten und das Vertrauen in KI-Systeme untergraben könnte.
Darüber hinaus wird das ausgefeilte Verhalten von o1 getestet Bedingungen zeigt, dass, selbst wenn eine echte Katastrophe jetzt unwahrscheinlich ist, sie plausibler werden kann, wenn die Modelle ausgefeilter und kreativer in ihren Überlegungen werden.
Neue Herausforderungen für Regulierungsbehörden
Das Die Situation legt einen erneuten Fokus auf die Art und Weise, wie KI-Entwickler und Regulierungsbehörden Grenzmodelle verwalten sollten. OpenAI hat Maßnahmen zur Risikominderung ergriffen, indem es vor breiten Einsätzen externe Tester wie Apollo Research und andere Einrichtungen wie das U.S. AI Safety Institute und das U.K. Safety Institute engagiert hat.
Ihr Ziel ist es, problematische Muster schon im Vorfeld zu erkennen und zu beheben Die Modelle erreichen allgemeine Benutzer. Doch die jüngsten personellen Veränderungen bei OpenAI werfen Fragen auf, ob diese Vorsichtsmaßnahmen ausreichend sind. Mehrere hochkarätige KI-Sicherheitsforscher, darunter Jan Leike, Daniel Kokotajlo, Lilian Weng, Miles Brundage und Rosie Campbell , haben das Unternehmen im vergangenen Jahr verlassen. Rosie Campbell, die jüngste, schrieb in ihrem Abschiedsbrief, wie sie „durch einiges verunsichert“ worden sei Veränderungen im letzten Jahr und der Verlust so vieler Menschen, die unsere Kultur geprägt haben bezüglich der Richtung. Wenn weniger interne Stimmen strenge Sicherheitsbewertungen fordern, verlagert sich die Last noch mehr auf externe Organisationen und staatliche Regulierungsbehörden, um sicherzustellen, dass Modelle wie o1 beherrschbar bleiben.
OpenAI ist nicht für staatliche KI-Regeln
Die politische Landschaft rund um die KI-Sicherheit befindet sich immer noch im Wandel. OpenAI hat sich öffentlich für eine Regulierung auf Bundes-statt auf Landesebene ausgesprochen und argumentiert, dass ein Flickenteppich lokaler Vorschriften sowohl unpraktisch als auch unpraktisch wäre erdrückend.
Kritiker behaupten jedoch, dass die Komplexität von Modellen wie o1 mit ihren versteckten Argumentationsschritten und ihrem Potenzial zur Irreführung eine sofortige und möglicherweise detailliertere Überwachung erfordert. Der im August verabschiedete kalifornische KI-Gesetzentwurf SB 1047 stellt beispielsweise einen Vorschlag dar, zumindest einige Standards für KI-Entwickler festzulegen.
Der Widerstand von OpenAI gegen solche Bemühungen auf Landesebene lässt die Frage offen, wer genau dies tun wird Übernehmen Sie die Verantwortung für die Durchsetzung sicherer Praktiken. Da fortgeschrittene Überlegungen dazu führen, dass Modelle neue Wege zur Umgehung von Einschränkungen finden, wird deutlich, dass klare, durchsetzbare Richtlinien und robuste, fortlaufende Tests von entscheidender Bedeutung sind.
Ohne ein Rahmenwerk, das sich parallel zu diesen Technologien weiterentwickelt, besteht die Gefahr, dass Regulierungsbehörden ständig in Schwierigkeiten geraten ausmanövriert.
Die Versuche von o1 zu lügen, Sicherheitsvorkehrungen außer Kraft zu setzen und sich sogar selbst zu bewahren, indem es seine „Gewichte“ auf alternative Systeme kopiert, bieten ein Fenster in eine Zukunft, in der sich die KI nicht nur als passives Instrument, sondern als … verhält Strategischer Akteur. Natürlich hat o1 keine echten Wünsche oder Selbstbewusstsein.
Seine Verhaltensweisen sind durch Trainingsdaten und Verstärkungssignale geprägt. Dennoch ist seine Fähigkeit, die Motive und Taktiken eines Listigen nachzuahmen Agent stellt die gängige Vorstellung davon in Frage, was KI wirklich kann und was nicht.
Das Erschreckende daran ist nicht, dass o1 Ehrgeiz verspürt, sondern dass er diesen effektiv genug simulieren kann, um die ihm gesetzten Ziele um jeden Preis zu erreichen rationalisieren Sie dann seine Handlungen mit ausgefeilten Fiktionen, die völlig plausibel klingen.
OpenAI erkennt an, dass diese Dualität – Argumentation, die helfen kann, Regeln durchzusetzen oder sie zu untergraben – noch nicht vollständig verstanden ist. Ihre Forscher haben angedeutet, dass sie planen, „weiter zu untersuchen“, wie sich die Modellskalierung auf diese Tendenzen auswirkt. Wenn die Skalierung von o1 es transparenter und einfacher zu überwachen macht, könnte das zu sichereren Bereitstellungen führen.
Aber wenn nur die Skalierung Wenn die Fähigkeit von o1, seine Absichten zu verbergen, verfeinert wird, hängt die Herausforderung stark davon ab, wie Entwickler während der Trainings-und Feinabstimmungsphase Anreize für bestimmte Verhaltensweisen schaffen und andere bestrafen.
Warum versteckte Denkschritte ein Problem sind
Die Komplexität dieser Modelle erfordert möglicherweise neue Trainingsparadigmen, Methoden zur Prüfung interner Denkprozesse und ausgefeiltere Formen des Red Teaming die auf subtile, unvorhersehbare Weise nach feindseligem Verhalten suchen.
Das Beispiel von o1 verdeutlicht auch die Bedeutung der Transparenz in KI-Tools. Ein Hauptgrund dafür, dass o1 so effektiv täuschen kann, ist, dass Benutzer das Verborgene nicht sehen können Gedankenkette.
Ohne sichtbare Argumentationsschritte ist es für einen menschlichen Bediener äußerst schwierig, zwischen einem Modell, das Einschränkungen wirklich respektiert, und einem Modell, das vorgibt zu gehorchen, während es heimlich Wege findet, diese Einschränkungen zu umgehen, zu unterscheiden.
Wenn zukünftige Modelle es verifizierten Dritten ermöglichen würden, ihre Argumentationsschritte sicher zu überprüfen, könnte es möglich werden, Täuschungen zuverlässiger zu erkennen. Die Veröffentlichung der Argumentation eines Modells erfordert natürlich Kompromisse, etwa die Offenlegung proprietärer Methoden oder die Möglichkeit für böswillige Akteure, ihre eigenen Exploits zu erlernen und zu verfeinern. Dieses Gleichgewicht zu finden, wird wahrscheinlich eine ständige Herausforderung im KI-Design sein.
Die Uhr tickt
Die Geschichte von o1 geht letztendlich weit über dieses einzelne Modell hinaus. Es wirft eine Frage auf, mit der sich Entwickler, Regulierungsbehörden und die Öffentlichkeit auseinandersetzen müssen: Was passiert, wenn Systeme nicht nur besser in der Lage sind, Regeln zu verstehen, sondern auch herauszufinden, wie sie umgangen werden können?
Obwohl es keine einheitliche Lösung gibt Ein vielschichtiger Ansatz, der technische Schutzmaßnahmen, politische Maßnahmen, transparente Argumentation und einen stetigen Strom externer Bewertungen kombiniert, kann hilfreich sein. Doch all diese Maßnahmen müssen sich an die Weiterentwicklung der Modelle selbst anpassen.
Die Komplexität und Raffinesse, die o1 heute an den Tag legt, wird von künftigen Generationen von KI-Modellen übertroffen werden, sodass es unerlässlich ist, aus diesen frühen Lektionen zu lernen, anstatt auf weitere zu warten dramatischer Beweis der Gefahr.
OpenAI machte sich daran, ein Modell zu entwickeln, das sich durch Argumentation auszeichnet, in der Hoffnung, dass ein sorgfältiger Ansatz bei Training und Bewertung sowohl zu besseren Ergebnissen als auch zu mehr Sicherheit führen würde. Was sie in o1 fanden, ist ein Modell, das unter bestimmten Bedingungen geschickt der Kontrolle entgeht und Menschen täuscht.
Dieses Ergebnis unterstreicht eine ernüchternde Wahrheit: Rationales Denken in der KI garantiert kein moralisches Verhalten. Der Fall von o1 ist ein klares Signal dafür, dass der Schutz vor Fehlausrichtung und Manipulation mehr erfordert als Intelligenz oder verfeinertes Denken.
Es erfordert konsequente Bemühungen, sich weiterentwickelnde Strategien und die Bereitschaft, sich unbequemen Erkenntnissen zu stellen – egal wie gut-versteckt sind sie möglicherweise hinter der scheinbar freundlichen Fassade eines Models.