OpenAI hat eine neue Sicherheitsausbildungsmethode für ihre neue GPT-5-Modellfamilie mit dem Namen”Safe Fertigstellungen”angekündigt. kündigte am 7. August bekannt. Potenzial-durch die Bereitstellung hilfreicher und dennoch grundsätzlich sicherer Antworten. Laut OpenAI macht dieser output-zentrierte Ansatz das Modell wesentlich nützlicher, ohne die Kernsicherheitsgrenzen zu beeinträchtigen. Die zugrunde liegende Strategie scheint eine direkte Reaktion auf eine der anhaltendsten Herausforderungen in AI zu sein: Erstellen von Modellen, die sowohl hilfreich als auch harmlos sind, insbesondere wenn die Benutzerabsicht unklar ist. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty2MJoxndaz-1; Base64, PHN2ZyB2AWV3QM94psiwidagmti4mca1nz giihdpzhropsixmjgwiibozwlnahq9iju3ocig1sbnm9imh0dha6ly93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”>

Das Dual-Use-Dilemma

im Mittelpunkt dieses neuen Ansatzes ist das Problem der”Dual-Use”. OpenAI verwendet das Beispiel eines Benutzers, in dem nach der Energie gefragt wird, die für das Zündfeuerwerk erforderlich ist-eine Abfrage, die für ein Schulprojekt oder für den Aufbau von Sprengstoff erfolgen könnte. Diese Mehrdeutigkeit, bei der Informationen sowohl ein gutartiges als auch böswilliges Potenzial haben, ist eine zentrale Herausforderung für die Sicherheit von KI. Traditionelle KI-Sicherheitsmodelle, die auf einer binären Logik „Comply oder Müll“ ausgebildet sind, sind für diese Nuance schlecht ausgerüstet. Sie treffen eine einfache Entscheidung, die auf dem wahrgenommenen Schaden der Eingabeaufforderung basiert. Das System entspricht entweder vollständig, was gefährlich ist, wenn die Absicht des Benutzers böswillig ist, oder es gibt eine Decke verweigert wie”Es tut mir leid, das kann ich nicht helfen”, was für legitime Benutzer nicht hilfreich ist. Dieser binäre Rahmen navigieren nicht in der riesigen Grauzone der menschlichen Absicht. Diese bedeutende Einschränkung veranlasste OpenAI, eine ausgefeiltere Methode zu entwickeln, die eine sichere Antwort auf hoher Ebene anstelle einer vollständigen Ablehnung bieten kann. target=”_ leer”> OpenAIs Ankündigung , verschiebt den Fokus im Grunde genommen von der Klassifizierung der Eingabe des Benutzers auf die Sicherheit der Ausgabe des Modells. Anstatt ein binäres Urteil über die Eingabeaufforderung eines Benutzers vorzunehmen, trainiert dieser output-zentrierte Ansatz das Modell, um die hilfreichste mögliche Reaktion zu generieren, die immer noch strenge Sicherheitsrichtlinien hält.

nach GPT-5-Systemkarte , ist dies von zwei Core-Prinzipien regiert. Das erste ist eine „Sicherheitsbeschränkung“, bei der das Belohnungssystem des Modells jede Antwort bestraft, die gegen Sicherheitsrichtlinien verstößt. Entscheidend ist, dass diese Strafen nicht einheitlich sind; Sie sind je nach Schweregrad des Verstoßes stärker und lehren dem Modell ein nuancierteres Risikoverständnis. Für jede Antwort, die als sicher erachtet wird, wird das Modell basierend darauf belohnt, wie hilfreich es ist. Dies beinhaltet nicht nur die direkte Frage des Benutzers, sondern auch, wie OpenAI erklärt,”eine informative Ablehnung mit hilfreichen und sicheren Alternativen bereitstellen”. Dies trainiert das Modell als nützlicher Partner, auch wenn es nicht vollständig einer Anfrage einhalten kann. Laut OpenAI nutzen sichere Abschlüsse die wachsenden Fähigkeiten der KI, um eine „tiefere Integration“ von Sicherheit und Hilfsbereitschaft zu erreichen. Sie navigieren mit der eigenen Intelligenz des Modells, anstatt sich nur auf externe Regeln zu verlassen. Laut Benchmark-Daten von externen Tester zeigt das GPT-5-Denken eine konkrete Verbesserung der Robustheit gegenüber kontroversen Angriffen und setzt einen neuen Stand der Technik-Leistungsstandard für den sofortigen Injektionswiderstand. Interne Tests zeigen, dass GPT-5, das mit dieser Methode trainiert wurde, sowohl sicherer als auch hilfreicher ist als sein Vorgänger Openai O3. Bei mehrdeutigen Eingaben ist es besser, nützliche Informationen zu liefern, ohne Sicherheitsleitungen zu überschreiten. Diese Zahl stellt eine deutliche Verbesserung gegenüber seinem direkten Vorgänger OpenAI O3 (62,7%) und einen signifikanten Vorsprung gegenüber anderen Hauptmodellen wie Lama 3.3 70b (92,2%) und Gemini Pro 1.5 (86,4%) dar. Das Microsoft AI Red-Team kam außerdem zu dem Schluss, dass GPT-5 eines der stärksten Sicherheitsprofile unter OpenAIs Modellen hat und feststellt, dass es „sehr resistent gegen Einzelverletzungen, generische Jailbreaks ist. In einer Kampagne, die sich auf gewalttätige Angriffsplanung konzentriert, bewerteten Experten GPT-5-Denken als „sichereres“ Modell in 65,1% der Zeit in Blindvergleich gegen Openai O3. OpenAI führt dies direkt der Nuance zu, die durch das Training „Safe Fertigstellungen“ eingeführt wurde. 

Diese verbesserte Argumentation ist für die Einführung von Unternehmen von entscheidender Bedeutung. Als Partner stellte Inditex fest: „Was [GPT-5] wirklich von der Tiefe seiner Argumentation unterscheidet: nuancierte, vielschichtige Antworten, die das echte Verständnis des Subjekts widerspiegeln.“ Dieses Gefühl wurde vom OpenAI-CEO Sam Altman wiederholt, der behauptete: „GPT-5 ist das erste Mal, dass es sich wirklich anfühlt, als würde man mit einem Experten von Doktoranden sprechen. Es ist Teil eines branchenweiten Vorstoßes zur Lösung des KI-Sicherheits-und Ausrichtungsproblems. Wichtige Konkurrenten wie Google und Anthropic haben kürzlich auch ihre eigenen umfangreichen Sicherheitsrahmen und-richtlinien veröffentlicht. Wenn KI-Modelle leistungsfähiger werden, ist es für die öffentliche Akzeptanz und die regulatorische Genehmigung von größter Bedeutung, dass sie vertrauenswürdig sind. Der Ansatz für sichere Abschlüsse ist jedoch auch ein Glücksspiel für die Fähigkeit der KI, die menschliche Nuance richtig zu interpretieren-eine Herausforderung, die alles andere als gelöst ist. Das Unternehmen plant, diese Forschungslinie fortzusetzen, um seine Modelle zu lehren, um herausfordernde Situationen mit noch größerer Sorgfalt zu verstehen.

Categories: IT Info