Das Chief Digital and Artificial Intelligence Office (CDAO) des Pentagon hat eine neue Initiative gestartet von beauftragt Scale AI, ein in San Francisco ansässiges Technologieunternehmen, mit der Entwicklung eines umfassenden Rahmenwerks für die Bewertung großer Sprachmodelle (LLMs). Ziel dieser Zusammenarbeit ist es, die Zuverlässigkeit und Sicherheit generativer KI-Technologien zu gewährleisten, die das Potenzial haben, militärische Planung und Operationen zu verbessern. Das vom CDAO angekündigte Projekt ist eine Reaktion auf den wachsenden Bedarf an einem robusten Test-und Bewertungsverfahren (T&E), mit dem die Leistung komplexer KI-Systeme innerhalb des Verteidigungsministeriums (DoD) genau gemessen werden kann.

Verbesserung der militärischen Entscheidungsfindung mit KI

Große Sprachmodelle stellen eine Klasse von KI dar, die Texte, Bilder und andere Medienreaktionen aus menschlichen Eingaben generieren kann. Obwohl sie für militärische Anwendungen vielversprechend sind, bringt ihre Komplexität auch Herausforderungen mit sich, wenn es darum geht, ihre Zuverlässigkeit und Eignung für sensible militärische Kontexte sicherzustellen. Das neue Framework von Scale AI soll diese Herausforderungen angehen, indem es dem Verteidigungsministerium die Tools zur Verfügung stellt, die für den sicheren Einsatz von KI-Funktionen erforderlich sind. Es wird Benchmarks für die Modellleistung, Echtzeit-Feedback-Mechanismen und spezielle, auf militärische Bedürfnisse zugeschnittene Bewertungssätze bieten. Diese Fortschritte sollen die Ziele der Task Force Lima ergänzen und generative KI-Technologien in vollem Umfang nutzen.

Ein strenger Prozess für vertrauenswürdige KI

Die Die Initiative „Scale AI“ wird einen strengen T&E-Prozess implementieren, der die Feinheiten der Bewertung generativer KI widerspiegelt. Im Gegensatz zu den einfacheren T&E-Methoden, die für andere Arten von Algorithmen verwendet werden, erfordert die Bewertung großer Sprachmodelle aufgrund der Variabilität des sprachlichen Ausdrucks und des Mangels an absoluter „Grundwahrheit“ in sprachbasierten Antworten einen differenzierten Ansatz. Scale AI plant, „Holdout“ zu integrieren Datensätze“, die Eingaben von DoD-Insidern umfassen, um sicherzustellen, dass KI-Reaktionen den hohen Standards entsprechen, die in militärischen Kontexten erwartet werden. Diese Methode zielt darauf ab, KI-Modelle so zu optimieren, dass sie den spezifischen Anforderungen des Verteidigungsministeriums entsprechen und sicherstellt, dass ihre Anwendungen sowohl zuverlässig als auch relevant sind.

Darüber hinaus besteht das Ziel darin, den T&E-Prozess so weit wie möglich zu automatisieren, um eine effiziente und fortlaufende Bewertung von KI-Modellen im Zuge der technologischen Weiterentwicklung zu ermöglichen. Durch die Festlegung einer Reihe von Bewertungsmetriken und Modellkarten erhalten DoD-Beamte ein klares Verständnis der Stärken und potenziellen Einschränkungen jedes Modells in sicheren Umgebungen. Dieser sorgfältige Ansatz unterstreicht das Engagement, KI-Technologien so zu integrieren, dass die Robustheit und operative Wirksamkeit der Fähigkeiten des US-Militärs verbessert wird.

Die Zusammenarbeit von Scale AI mit dem Pentagon bedeutet einen entscheidenden Schritt in Richtung eines verantwortungsvollen Einsatzes von KI in Nationale Sicherheit. Indem dieses Projekt neue Maßstäbe für die Bewertung generativer KI setzt, verspricht es, den Weg für fortschrittliche Technologien zu ebnen, die die militärische Wirksamkeit stärken und gleichzeitig höchste Standards an Sicherheit und Zuverlässigkeit gewährleisten. Im vergangenen August ging Scale eine Partnerschaft mit OpenAI ein, um Unternehmensanwendern eine Feinabstimmung für GPT-3.5 zu ermöglichen.

Categories: IT Info