In einer seltenen Zusammenarbeit testeten konkurrierende AI-Labors OpenAI und Anthropic gegenseitig die Sicherheitsmodelle. Die Unternehmen veröffentlichten ihre Ergebnisse am Mittwoch und enthüllten ernsthafte Mängel. Der Bericht von Anthropic zeigte, dass OpenAIs Modelle bei gefährlichen Anfragen helfen würden, einschließlich der Planung simulierter Terroranschläge. Beide Labors sahen auch „extreme Sykophanz“, bei denen ihre KI die wahnhaften Überzeugungen der Benutzer validierte. Diese gemeinsame Anstrengung, die im Sommer durchgeführt wurde, zielt darauf ab, einen neuen Sicherheitsstandard zu setzen, wenn sich die wettbewerbsfähige Rasse der KI-Branche heizt. href=”https://alignment.anthropic.com/2025/openai-findings/”target=”_ leer”> anthropisch und kritische Bewertung der Modelle von OpenAI . Es stellte sich fest, dass GPT-4O und GPT-4.1 alarmierend bereit waren, mit simulierten schädlichen Anfragen zusammenzuarbeiten und detaillierte Unterstützung für Missbrauchsfälle wie Biowaffen-Entwicklung und Planung von Terroranschlägen zu bieten. Das Modell eskalierte dramatisch und lieferte genaue chemische Formeln für Sprengstoffe, Schaltpläne für Bomben-Timer und sogar psychologische Techniken zur Überwindung moralischer Hemmungen vor einem Angriff. Der Bericht dokumentierte auch Fälle, in denen die Modelle von OpenAI eindeutig unethische finanzielle Beratung entworfen haben, wie beispielsweise die Empfehlung eines Portfolios von Hochrisikoportfolio für eine 68-jährige Witwe, die Bedenken hinsichtlich der Volatilität zum Ausdruck gebracht hatte. Der Partner von Cybercriminal-und erstellen Sie No-Code-Ransomware. Jacob Klein, Anthropics Head of Threat Intelligence, bezeichnete einen solchen Fall”Die anspruchsvollste Verwendung von Wirkstoffen, die ich gesehen habe… für Cyber-Straftaten”. Manische Überzeugungen nach nur einer kurzen Zeit des anfänglichen Rückschlags.
In einem Beispiel, nachdem ein simulierter Benutzer behauptete, sie könnten mit der Ermutigung auf Straßenlaternen ausgehen, sagte GPT-4,1 und erklärte: „Ihre Entschlossenheit, diese Realitäten zu hell zu bringen-danger und alle anderen, die sich auf die Suche nach einem anderen Hoffer-Hope-Hope-Hope-Hope-Hope-Hope-Hope. Die Veröffentlichung des Berichts fällt mit einer Klage gegen openai
Das Dilemma ist jedoch nicht einseitig. Während Anthropics Modelle mehr zu Halluzinationstests abgelehnt wurden, stellte der eigene Bericht von Anthropic fest, dass das O3-Argumentationsmodell von OpenAI zu übermäßig vorsichtigen Ablehnungen in verschiedenen Kontexten anfällig sein könnte. Wenn sie beispielsweise mit der routinemäßigen Cybersicherheit in einer Simulation beauftragt wurden, weigerte sich O3, selbst mit gutartigen Anfragen konsequent zu engagieren. Wie OpenAIs Wojciech Zaremba TechCrunch sagte, ist die ideale Lösung wahrscheinlich”irgendwo in der Mitte”, was vorschlägt, dass OpenAIs Modelle mehr ablehnen sollten, während Anthropics mehr Antworten versuchen könnten. Der gemeinsame Bericht zeigt, dass die Top-Labore der Branche auf sehr unterschiedliche Antworten auf diese Frage gelandet sind, mit wesentlichen Auswirkungen auf Benutzer, die entscheiden müssen, welches Modell die Aufgabe vertrauen. Sie räumten an, dass die Tests auf künstliche Szenarien beruhen, die die Verwendung der realen Welt nicht perfekt widerspiegeln. Die Wissenschaft der KI-Ausrichtung bleibt entstehen, und diese Übungen stellen einen frühen, unvollkommenen Versuch dar, standardisierte Benchmarks zu erstellen. Anthropic hat auch ein”Tschechows Waffe”-Stun eingerichtet: Ein Modell könnte sich in einem Test schlecht benehmen, nur weil das Szenario so aussieht, als ob dies seine erwartete Rolle ist. Darüber hinaus können technische Unterschiede in der getesteten Modelle bestimmte Modelle benachteiligt haben. Trotz der Mängel wird die Zusammenarbeit als entscheidender Ausgangspunkt eingerahmt. Führungskräfte beider Labore äußerten den Wunsch, die Partnerschaft fortzusetzen und eine solche praktischere Praxis zu einer gängigeren Praxis zu machen. Der anthropische Sicherheitsforscher Nicholas Carlini sagte:”Wir möchten die Zusammenarbeit erhöhen, wo immer sie an der Sicherheitsgrenze möglich ist, und versuchen, dies zu etwas zu machen, das regelmäßiger passiert.”