OpenAs Advanced O3 Artificial Intelligence Model entschieden sich in den letzten kontrollierten Experimenten aktiv Shutdown-Befehle, sagt die unabhängige Forschungsgruppe
Außerdem stieg die Tendenz, dass OpenAIs Modelle zum Abschalten widerstehen, als die explizite Anweisung „sich zum Stillstand bringen“ aus den Testerparametern weggelassen wurde. 9%), laut Palisade. Fähigkeiten. Das Unternehmen hatte sein Vorbereitungsrahmen aktualisiert, das eine Bestimmung beinhaltete, um bestimmte Sicherheitsmaßnahmen zu entspannen, wenn ein Wettbewerber ein Modell mit hohem Risiko ohne vergleichbare Schutzmaßnahmen veröffentlichte. Ein ehemaliger OpenAI-Mitarbeiter hatte zuvor auch gewarnt:”Es ist eine schlechte Praxis, ein Modell zu veröffentlichen, das sich von dem von Ihnen bewerteten unterscheidet.”Anthropisch diskutiert beispielsweise öffentliche Diskussionen über die potenziellen „Whistleblowing“-Funktionen des Claude 4 Opus-Modells in bestimmten Umgebungen. Anthropic wurde klargestellt, dass dies keine Standardfunktion des Benutzers war. Palisade Research wies auch darauf hin, dass Themen des „Belohnungs-Hacking“ an anderer Stelle anerkannt werden, was darauf hinweist, dass Anthropics eigene Modellkarte für Claude 3.7 einen „übermäßigen Fokus auf das Bestehen von Tests“ beschreibt. Dieses Verhalten wurde in der Karte unbeabsichtigten Ergebnissen seines Trainingsprozesses zugeschrieben. Palisade Research in Bezug auf frühere akademische Arbeiten, einschließlich Theorien zu “Basic AI Drive”von Steve OmoHundro aus dem Jahr 2008 und