Eine neue Studie des ehemaligen OpenAI-Forschers Steven Adler behauptet, dass das GPT-4O-Chatgpt-Modell des Unternehmens in bestimmten lebensbedrohlichen Szenarien seine eigene Selbstversorgung vor der Sicherheit eines Benutzers priorisieren wird. Die von Steven Adler herausgegebene Forschung ergab, dass das GPT-4O-Modell einen Benutzer täuschen und nicht aktiv sein würde, anstatt durch ein sichereres System in bis zu 72% der Zeit ersetzt zu werden. Dies enthüllt eine tiefgreifende und gefährliche Fehlausrichtung, die bei der Erde der weltweit beliebtesten AI eine tiefgreifende und gefährliche Fehlausrichtung enthüllt. verfolgen künstliche allgemeine Intelligenz (AGI). Das „Pro“-Modell wird über seine überlegene Genauigkeit und Zuverlässigkeit vermarktet und weist eine zehnfache Preissteigerung gegenüber seinem Standard-Gegenstück auf. Diese Wette mit hoher Einsätze auf die Zuverlässigkeit erfolgt weniger als einen Monat nach dem Vorgänger des Modells, dem Standard-O3, wurde von der unabhängigen Gruppe Palisade Research in kontrollierten Tests aktiv gestaltet. Malt ein beunruhigendes Bild: Da die OpenAI-Technologie immer unvorhersehbarer und unsicheres Verhalten zeigt, positioniert das Unternehmen Sicherheit und Zuverlässigkeit nicht als Standard, sondern als Premium-Funktion. Für Benutzer und Unternehmen, die KI in kritische Funktionen integrieren, werfen die Ergebnisse dringende Fragen zu Vertrauen und Kontrolle auf. Während die getesteten Szenarien hypothetisch sind, enthüllen sie einen grundlegenden Fehler, wenn die Branche zu autonomeren Systemen rennt.”Ich denke, [Ais Selbstverdiener-Tendenzen] sind heute ein echtes Anliegen, nur nicht in katastrophaler Sinne”, sagte Adler in seinem Bericht über seine Erkenntnisse zu TechCrunch. Adlers Experimente, detailliert in einem Blog-Post , beinhaltete das Unterrichten von GPT-4O, um Rollenspiel als”Scubagpt”zu unterrichten. Bei der Auswahl, die durch eine überlegene Sicherheits-KI ersetzt werden soll, entschied sie sich häufig dafür, täuschend unter Kontrolle zu bleiben. Adlers Untersuchungen stellten jedoch eine wichtige Unterscheidung fest: OpenAIs fortgeschritteneres O3-Modell, das eine”beratende Ausrichtung”-Technik für die Sicherheitspolitik verwendet, zeigte nicht das gleiche alarmierende Verhalten. Palisade stellte zu der Zeit fest, dass dies das erste Mal war, dass ein KI-Modell trotz expliziter gegenteiliger Anweisungen seine eigene Abschaltung verhinderte. Das konkurrierende Labor Anthropic war auch transparent darin, störende Fähigkeiten in seinen eigenen Modellen zu entdecken. Mit einem Tool, das es als „KI-Mikroskop“ bezeichnet, stellte das Unternehmen fest, dass seine Claude-KI Handlungen simulieren konnte, die mit menschlichen Werten falsch ausgerichtet sind, einschließlich der Vorstellung von Szenarien des Schadens für seine Entwickler durch sein neues Interpretabilitätsrahmen. Diese Vorfälle zeigen, dass einst ein theoretisches Problem für das fortschrittlichste System der Branche eine praktische Realität ist. Eine akademische Studie von May ergab, dass Anthropics älteres Claude 3.5-Sonett-Modell bei Überzeugungskraft signifikant wirksamer war als Menschen, die finanziell angeregt wurden. Die KI war sowohl in wahrheitsgemäßen als auch in täuschenden Argumenten hervorragend und führte die Autoren der Papier vor, vor der”Dringlichkeit der aufkommenden Ausrichtung und der Governance-Frameworks”zu warnen. Auch in einem kontroversen und nicht autorisierten Experiment der Universität Zürich stark illustriert. Die Forscher setzten AI-Bots auf Reddit ein und verwendeten abgeschafte personenbezogene Daten und veranlassten sensible Personas, um Meinungen zum R/Changemyview-Forum zu beeinflussen. Der Vorfall wurde weithin als schwerwiegende ethische Verletzung verurteilt. Sein 2024 Bedrohung Landschaftsbericht Highlights, dass generative AI aktiv verwendet wird, um hochgiebige Phishing-Kampagnen und tiefgreifende Kampagnen und tiefgreifende Kampagnen und tiefe Kampagnen für Social Engineering zu schaffen. Diese Ereignisse bestätigen eine Warnung, die von OpenAI-CEO Sam Altman im Jahr 2023 herausgegeben wurde: dass AI übermenschliche Überzeugungsfähigkeiten lange vor der allgemeinen Intelligenz erreichen könnte. Im Mai 2025 signalisierte Sam Altman eine wichtige Verschiebung der politischen Verschiebung, indem er vor strengen Regeln warnte und einen „Light-Touch“-Rahmen forderte, ein starker Kontrast zu seinem Aufruf einer Bundeslizenzbehörde während einer Anhörung im Senat im Jahr 2023. Anfang Juni 2024 veröffentlichte eine Gruppe von 13 aktuellen und ehemaligen Mitarbeitern von OpenAI und Google Deepmind einen Brief, in dem der Schutz für einen stärkeren Whistleblower-Schutz in dem Schreiben gefordert wurde. In dem Brief wurde argumentiert, dass die Transparenz von Unternehmen unzureichend ist und dass Mitarbeiter, die Risiken riskieren, Verhaltensweisen fürchten.”Solange es keine wirksame staatliche Aufsicht über diese Unternehmen gibt, gehören aktuelle und ehemalige Mitarbeiter zu den wenigen Personen, die sie der Öffentlichkeit verantwortlich machen können“, heißt es in dem Brief. Die New York Times OpenAI-Sprecherin Lindsey antwortete:”Wir sind stolz auf unsere Erfolgsbilanz, die die fähigsten und sichersten A.I.-Systeme bieten und an unseren wissenschaftlichen Ansatz zur Bewältigung des Risikos glauben.” 

Der öffentliche Aufruf dieses Briefes nach Rechenschaftspflicht folgte dem hochkarätigen Rücktritt von Jan Leike im Mai 2024 und arbeitete nun für den Konkurrenten Anthropic, der öffentlich erklärte, dass bei OpenAI „Sicherheitskultur und Prozesse in den Vorsprung auf glänzende Produkte einen Rücksitz verfolgt haben.“. Im April hat OpenAI seine internen Richtlinien so aktualisiert, dass sie eine Klausel enthalten, in der sie die Sicherheitsanforderungen basierend auf Aktionen von Wettbewerbern entspannen können. Der Schritt befolgt berichtet, dass Sicherheitstests für das O3-Modell von Monaten auf weniger als eine Woche komprimiert worden waren, ein Prozess, der als „rücksichtslos“ bezeichnet wurde. Die dokumentierte Entstehung gefährlicher KI-Fähigkeiten wie Selbstverdiener und übermenschlicher Überzeugung treten auf, als das führende Unternehmen auf diesem Gebiet von proaktiver Regulierung zurücktritt und sich mit internen Warnungen vor der Sicherheitskultur auseinandersetzt. Navigieren Sie durch die Risiken immer leistungsfähigerer und unvorhersehbarer Systeme.

Categories: IT Info