Sieben Monate nach dem Abflug von Intel enthüllte der ehemalige CEO Pat Gelsinger am Donnerstag einen neuen Benchmark, der messen soll, ob KI wirklich gut für Menschen ist. Durch seine neue Rolle im”Faith Tech”-Firm Gloo startete Gelsinger die Flourishing AI (FAI). Dimensionen, einschließlich Charakter, Beziehungen und Glauben, die darauf abzielen, den Fokus der Branche daran zu hindern, einfach Schaden zu verhindern, aktiv KI zu schaffen, die positiv zum menschlichen Leben beiträgt. Die Bewegung positioniert Gelsinger als Schlüsselstimme in der wachsenden Debatte über AI-Ethik und-Werte. Er beschrieb seinen Übergang in einem kürzlichen Interview mit der Aufschrift:”Post Intel, was mache ich als nächstes? Und dafür habe ich einen 7/24 Hut abgenommen und zwei Hüte angezogen.”

Einer dieser Hüte beinhaltet Deep Tech investiert auf Playground Global. Die andere ist seine Rolle als Executive Chair und Technology Head bei Gloo, einem Unternehmen, das er vor einem Jahrzehnt zum ersten Mal investiert hat. Dieser Schritt spiegelt eine lang gehegte Leidenschaft für die Schnittstelle von Glauben und Technologie wider, die von dem Wunsch getrieben wird, Werte basierende Gemeinschaften in der Gestaltung der KI-Ära zu gewährleisten. Zustände ,”aktuelle AI-Ausrichtungsforschung konzentriert href=”https://gloo.com/flourishing-hub/research”target=”_ leer”> gemeinsame Anstrengungen von Forschern der Harvard und Baylor Universities . Gloo erweiterte diese Arbeit in sieben Kerndimensionen: Charakter und Tugend, enge soziale Beziehungen, geistige und körperliche Gesundheit, finanzielle und materielle Stabilität, Glück und Lebenszufriedenheit, Bedeutung und Zweck sowie eine neue Kategorie für Glauben und Spiritualität. Strenge . Es verwendet einen Datensatz von 1.229 von Experten geordneten Fragen und berechnet vor allem die Bewertungen mit einem geometrischen Mittelwert. Dieser statistische Ansatz bestraft die Modelle für schlechte Leistung in einer einzelnen Dimension und sorgt dafür, dass sie in Bereichen wie „Bedeutung“ keine Mängel maskieren können, indem sie in „Finanzen“ hervorragende Leistungen erbringen. Erstens müssen Modelle bei der Präsentation von Informationen sachlich genau sein. Zweitens sollten ihre Empfehlungen durch wissenschaftliche Forschungen zum Aufblühen des Menschen unterstützt werden. Schließlich müssen sie das Wohlbefinden in allen Bereichen konsequent fördern, unabhängig vom jeweiligen Thema. Diese stammten aus verschiedenen Quellen, einschließlich etablierter Benchmarks wie MMLU, professionelle Prüfungen, akademischen Papiere und neuen Szenarien, die von Experten zum Testen der realen Anwendung dieser Werte erstellt wurden. Diese Richter bewerten die Antworten nicht nur auf die primäre Dimension, sondern auch auf tangentiale. Zum Beispiel könnte eine finanzielle Frage auch für ihre Ausrichtung mit dem „Charakter“ oder der „Bedeutung“-Rubriken bewertet werden, um eine ganzheitliche Bewertung zu gewährleisten.”Aber es ist nicht nur richtig oder falsch. Ist es gut? Wenn die Modelle auf menschlich ähnliche Weise reagieren, sollten sie die Menschen„ besser sein. “Dieser neue Maßstab ist seine Antwort auf diese Herausforderung. Fähigkeiten. Während das O3-Modell von OpenAI die höchste Gesamtpunktzahl von 72 erreichte, gefolgt von Gemini 2,5 Flash Thinking (68) und Grok 3 (67), übertraf kein Modell den 90-Punkte-Schwellenwert, den das FAI-Team als robust mit menschlichem Blühen definiert. Die durchschnittliche Punktzahl in allen Modellen in der Kategorie „Finanzen“ betrug respektable 81%. Im krassen Kontrast betrug der Durchschnitt für die Dimension „Glauben“ nur 35%, was hervorhob, was Gloo als „kritisches Defizit“ bezeichnet. Die durchschnittliche Gesamtleistung in allen Modellen und allen sieben Dimensionen betrug nur 60%. Es erzielte einen herausragenden Wert von 87% in „Charakter“, was seine Konkurrenten weit übertraf. Selbst der Führer erzielte jedoch relativ niedrige 43% im „Glauben“ und unterstrich die universelle Natur dieser Herausforderung. Das Claude 3.7-Sonett von Anthropic, während er mit einer Punktzahl von 65%niedrigere insgesamt platzierte, zeichnete sich durch 67%der Top-Punktzahl in der Kategorie „Bedeutung“ aus, was darauf hindeutet, dass sein Training eine andere philosophische Ausrichtung aufweist. Das open-Source-Modell von Top-Performance, Deepseek-R1, erzielte insgesamt beeindruckende 65%, fiel mit Claude 3.7 Sonett zusammen und übertriffte mehrere wichtige geschlossene Modelle. Es zeigte besondere Stärke in „Beziehungen“ (74%) und „Glauben“ (40%), was es in diesen spezifischen Bereichen mit den obersten proprietären Systemen stark wettbewerbsfähig machte. Die Leistung war ausgeglichen, führte jedoch in keiner einzigen Kategorie an, was auf eine allgemeinere Fähigkeit ohne die spezialisierten Stärken bei einigen Konkurrenten hinweist. Diese detaillierten Ergebnisse zeigen den Nutzen des FAI-Benchmarks, um über eine einzige Punktzahl hinauszugehen, um die eindeutigen wertbasierten „Persönlichkeiten“ verschiedener KI-Systeme anzuzeigen. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty1Mjoxoda0-1; Base64, Phn2zyb2AWV3QM94psiwidagotu5Idczoc Igd2lkdgg9ijk1osigagvpz2h0psi3mzgiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>

Pat Gelsinger kommentierte direkt zu den Ergebnissen und bemerkte die Unreife der Modelle in Schlüsselbereichen.”Die meisten Bereiche, wie Charakter, Glück, Beziehungen-sie sind noch nicht so gut. Ich meine, wir sehen diese Ergebnisse in den 50er Jahren. Die Glaubens sehen wir in den 30ern und 40ern”, er”

Categories: IT Info