OpenAI steht nach einem Verstärkung Feinabstimmung (RFT) -eine Technik zum Erstellen von speziellen „Expertenmodellen“ für schmale Aufgaben. Diese Initiative erscheint jedoch unterscheidet sich von den grundlegenden Sicherheitsbewertungen vor der Veröffentlichung, die angeblich verkürzt werden. Im Mai 2024 konzentrierte sich Jan Leike, dann Co-Leiter des Superalignment-Teams des Unternehmens, auf langfristige KI-Risiken und erklärte öffentlich, dass in den letzten Jahren „Sicherheitskultur und Prozesse in den Hintergrund gezogen wurden. Sein Abschied und später die Beiträge anthropisch signalisierte tiefe Meinungsverschiedenheiten über Ressourcen und Prioritäten in Bezug auf langfristige KI-Sicherheitsforschung. Insbesondere hatte OpenAI die Gründung eines vom Verwaltungsrat geführten Sicherheits-und Sicherheitsausschusses nur wenige Tage zuvor mit einem Zeitraum von 90 Tagen beauftragt, Sicherheitsprozesse zu bewerten und zu entwickeln und Empfehlungen abzugeben. Am 28. März detaillierte Anthropic sein Interpretierbarkeitsgerüst, ein „AI-Mikroskop“ mit Dictionary Learning , um seine Argumente und die Identifizierung von Risken zu identifizieren. Das Lernen von Dictionary-Lernen versucht, die internen Berechnungen des Modells umzukehren und sie auf verständliche Konzepte zuzuordnen. Anthropisch wurde dies als wesentlich für das Vertrauen eingestuft. In ähnlicher Weise schlug Google Deepmind am 3. April einen globalen Sicherheitsrahmen für AGI vor, der sich für die internationale Aufsicht einsetzte und fortschrittliche KI-Risiken als unmittelbar behandelt hat. Dieser Vorschlag folgte der Bildung von DeepMinds eigener Organisation für KI-Sicherheits-und Ausrichtungsorganisationen Anfang 2024. Anthropisch, während er Anfang März auf stärkere KI-Regeln der Regierung drängte, beseitigte auch einige seiner eigenen früheren freiwilligen Sicherheitsverpflichtungen im Rahmen einer Initiative des Weißen Hauses 2023, was die Spannung zwischen öffentlicher Positionierung und Betriebsdruck veranschaulicht. OpenAI selbst ist Partei zu freiwilligen Verpflichtungen mit den britischen und US-Regierungen bezüglich externer Sicherheitstestzugriff, wie im FT-Bericht erwähnt. Die Notwendigkeit robuster Tests unterstreicht durch laufende Anfälligkeitsergebnisse, wie den Exploit „Delayed Tool-Aufladung“ im Gedächtnis von Google Gemini im Februar oder anhaltende Jailbreaking-Techniken, die mehrere führende Modelle betreffen. OpenAIs schnelle Entwicklung wird trotz Altman fortgesetzt.

Categories: IT Info