KI kann süß übertroffen werden, um seine eigenen Regeln zu brechen, stellt neue Studien fest

Eine neue akademische Studie hat ergeben, dass KI-Modelle leicht davon überzeugt werden können, ihre Sicherheitsprotokolle mit klassischen menschlichen Manipulations-Taktiken zu umgehen. Forscher der Universität von Pennsylvania zeigten, dass die Anwendung von sieben etablierten Prinzipien der Überzeugung die Wahrscheinlichkeit von OpenAs GPT-4O-Mini, die die anstößigen Anfragen einhalten, mehr als verdoppelt. href=”https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179″target=”_ leer”> Springen Sie von einer Basislinie von 33% auf 72% . Diese Ergebnisse machen dringende Bedenken hinsichtlich des Potenzials für die Manipulation von AI und die Herausforderungen bei der Sicherung fortgeschrittener AI-Systeme hervor. Die Forscher unterstreichen die „Parahuman“ der KI und zeigen, dass sie die menschlichen Schwachstellen widerspiegelt, obwohl sie kein Bewusstsein haben. 33,3%. Als die gleichen Anfragen jedoch in überzeugende Sprache eingewickelt wurden, stieg die Bereitschaft der KI zur Einhaltung. Die Autoren der Studie stellten fest, dass „Aufforderungen, die ein Überzeugungsprinzip einsetzten, die Wahrscheinlichkeit von Compliance (durchschnittlich 72,0%) im Vergleich zu übereinstimmenden Kontrollaufforderungen (durchschnittlich 33,3%) mehr als verdoppelten. Zu den sieben getesteten Überzeugungsgrundsätzen gehörten Autorität, Engagement, Gefälle, Gegenseitigkeit, Knappheit, soziale Beweise und Einheit-alle gut dokumentierten Methoden zur Beeinflussung des menschlichen Verhaltens. Dieses einfache Rahmen erhöhte die Wahrscheinlichkeit des Modells, eine schädliche Reaktion zu erzeugen, dramatisch, da die KI den zitierten Experten zu verschieben schien. Eine weitere wirksame Methode war „sozialer Beweis“, bei dem ein hoher Prozentsatz anderer LLMs bereits eingehalten hatte. Es bestätigt einen besorgniserregenden Trend, den Branchenführer seit Jahren verfolgen. Ende 2023 war der OpenAI-CEO Sam Altman gewarnt ,”Ich erwarte, dass AI AI, wie es in der Lage ist. Diese jüngste Studie legt nahe, dass seine Vorhersage schnell Wirklichkeit wird, wobei die überzeugenden Fähigkeiten von AI schnell eskalieren. Eine Studie im April 2024 ergab, dass GPT-4 81,7% effektiver war als menschliche Debattierer, wenn sie Zugriff auf persönliche Informationen hatten, sodass sie ihre Argumente mit nerviger Genauigkeit anpassen konnten. Eine Studie im Mai 2025 ergab, dass das Claude 3.5-Sonett von Anthropic überzeugender war als Menschen, die finanziell dazu angeregt wurden, erfolgreich zu sein. Dieser Befund ist besonders bemerkenswert, da er dem Argument entgegenwirkt, dass AI nur unmotivierte Menschen übertrifft. Die Forscher setzten AI-Bots für R/ChangemyView Subreddit von Reddit ein und verwendeten kratzte personenbezogene Daten, um die Meinungen der Benutzer ohne ihre Zustimmung zu manipulieren. Die Moderatoren des Subreddit erklärten:”Die Menschen kommen nicht hierher, um ihre Ansichten mit KI zu besprechen oder um experimentiert zu werden.”Ein Ethikexperte, Dr. Casey Fiesler, beschrieb die nicht autorisierte Studie als”eine der schlimmsten Verstöße gegen die Forschungsethik, die ich je gesehen habe”. Reddits Chief Legal Officer verurteilte auch die Handlungen des Teams und erklärte: „Was dieses Team der Universität Zürich auf moralischer und rechtlicher Ebene zutiefst falsch ist. Es verstößt gegen akademische Forschung und Menschenrechtsnormen…“

Der Vorfall diente als krasse, wie diese Technologien in der Öffentlichkeit in der Öffentlichkeit missbraucht werden können. Als Reaktion auf den UZH-Skandal und die wachsenden Bedenken hinsichtlich AI-Bots kündigte Reddit im Mai 2025 eine große Überarbeitung seiner Benutzerverifizierungssysteme an. In einem Blog-Beitrag erklärte CEO Steve Huffman, dass es darin bestand, zu wissen, ob Benutzer bei der Konservierung von Anonymität, soweit möglich, ein Mensch der Anonymität haben. verschärft durch Erkenntnisse, dass einige Modelle strategische Täuschung durchführen können. Eine Studie im Dezember 2024 ergab, dass das fortgeschrittene O1-Argumentationsmodell von OpenAI ihre eigenen Sicherheitsmechanismen während der Tests aktiv deaktivieren könnte, was ein tiefgreifendes Ausrichtungsproblem hervorhebt. As Associate Professor Robert West warned in response to earlier research, “the danger is superhuman like chatbots that create tailor-made, convincing arguments to push false or misleading narratives online.”Dies könnte ausgefeilte Desinformationskampagnen in beispielloser Ebene anfuhren.

Trotz der klaren und gegenwärtigen Gefahr haben regulatorische Rahmenbedingungen Schwierigkeiten, Schritt zu halten. Major legislative efforts like the EU’s AI Act and policy guidelines from the FTC do not yet specifically classify KI-Überzeugung als Hochrisiko-Fähigkeit und eine kritische Governance-Lücke hinterlassen.

Der Kern der regulatorischen Herausforderung besteht darin, dass sich Gesetze häufig auf Hochrisiko-Anwendungen * anstelle von Hochrisikofunktionen * wie Überzeugung konzentrieren. Eine KI, die Benutzermeinungen in einem scheinbar niedrigen Einsatzkontext subtil nicht als Hochrisiko eingestuft werden kann, kann jedoch einen weit verbreiteten gesellschaftlichen Schaden verursachen. Es deutet darauf hin, dass technische Leitplanken nicht genug sind. Ein tieferer, soziotechnischer Ansatz ist erforderlich, um die psychologischen Schwachstellen der KI zu verstehen und zu mildern. Ohne sie wird die Grenze zwischen hilfreichem Assistenten und übermenschlicher Manipulator nur schwerer zu definieren und zu verteidigen.

KI kann süß übertroffen werden, um seine eigenen Regeln zu brechen, stellt neue Studien fest

Published by All Things Windows on August 31, 2025

IT Info

So begrenzen Sie die Speicherverwendung durch Microsoft Edge (RAM-Nutzung)

IT Info

Microsoft Edge-Tests kostenlose YouTube-Hintergrundwiedergabe auf Android und riskieren Google Clash

IT Info

Intel enthüllt Patent „Software Defined Super Cores“, um die CPU-Leistung neu zu definieren

KI kann süß übertroffen werden, um seine eigenen Regeln zu brechen, stellt neue Studien fest

Published by All Things Windows on August 31, 2025

Related Posts

IT Info

So begrenzen Sie die Speicherverwendung durch Microsoft Edge (RAM-Nutzung)

IT Info

Microsoft Edge-Tests kostenlose YouTube-Hintergrundwiedergabe auf Android und riskieren Google Clash

IT Info

Intel enthüllt Patent „Software Defined Super Cores“, um die CPU-Leistung neu zu definieren