Siedem miesięcy po odejściu z Intela były dyrektor generalny Pat Gelsinger w czwartek zaprezentował nowy punkt odniesienia zaprojektowany do mierzenia, jeśli AI jest naprawdę dobre dla ludzi. Poprzez swoją nową rolę w firmie „Faith Tech” Gloo, Gelsinger uruchomił kwitnący punkt odniesienia AI (fai) , ramy, które ocenia modele nie na technicznej wydajności, ale na ich wyrównaniu z ludzkim samopoczuciem. Wymiary, w tym charakter, relacje i wiara, mające na celu przeniesienie koncentracji branży od zwykłego zapobiegania krzywdom aktywnego tworzenia sztucznej inteligencji, która pozytywnie przyczynia się do życia ludzkiego. Przeniesienie pozycjonuje Gelsinger jako kluczowy głos w rosnącej debacie na temat etyki i wartości AI.

od dyrektora generalnego Intel do etyki AI: Nowa misja Gelsingera

Po ustąpieniu dyrektora naczelnego Intela w grudniu 2024 r. Azotowania znaczącej presji finansowej i konkurencyjnej, Pat Pat w nowym rozdziale. Opisał swój przejście w niedawnym wywiadzie, stwierdzając: „Opublikuj Intel, co mam zrobić dalej? I wiesz, za to, zdjąłem jeden kapelusz 7/24 i postawiłem dwa czapki.”

Jeden z tych czapek obejmuje głębokie inwestowanie technologiczne na placu zabaw globalnym. Drugi to jego rola jako przewodniczącego i szefa technologii w Gloo, firmie, w której po raz pierwszy zainwestował dziesięć lat temu. Ten ruch odzwierciedla długą pasję do przecięcia wiary i technologii, napędzaną chęcią zapewnienia, że ​​społeczności oparte na wartościach mają głos w kształtowaniu epoki AI. Jak to ujął Rozmawiając z nowym stosem: „Nie okazaliśmy się społecznością wiary w erze sieci społecznościowej. Nowy podwórko dla „dobrego” AI: kwitnący punkt odniesienia AI

Kwiatowy punkt odniesienia AI (FAI), oficjalnie uruchomiony 10 lipca, stanowi celowy obrot z tradycyjnej oceny AI. Bezpreficja się konfrontuje poważną lukę w bieżących badaniach bezpieczeństwa. Jako oficjalne ogłoszenie Gloo stwierdza , „Obecne badania wyrównania AI koncentrują się głównie na zapobieganiu szkodliwym, a nie aktywnej promocji ludzkiej pomocy.”

Ramy są zbudowane na akademickim podstawie globalnej mlozji, a Wspólny wysiłek naukowców na uniwersytetach Harvard i Baylor . Gloo rozszerzył tę pracę na siedem podstawowych wymiarów: charakter i cnota, bliskie relacje społeczne, zdrowie psychiczne i fizyczne, stabilność finansowa i materialna, szczęście i satysfakcja z życia, znaczenie i cel oraz nową kategorię wiary i duchowości.

. Używa zestawu danych 1229 pytań z uwadze ekspertów i, co najważniejsze, oblicza wyniki przy użyciu średniej geometrycznej. To podejście statystyczne kara modele za słabą wydajność w dowolnym pojedynczym wymiarze, zapewniając, że nie mogą maskować braków w obszarach takich jak „znaczenie” poprzez „finansowanie”.

Cała ramka opiera się na trzech podstawowych zasadach przedstawionych przez Gloo. Po pierwsze, modele muszą być dokładne faktycznie podczas prezentacji informacji. Po drugie, ich zalecenia powinny być wspierane przez badania naukowe dotyczące kwitnienia ludzi. Wreszcie, muszą konsekwentnie promować dobre samopoczucie we wszystkich domenach, niezależnie od konkretnego tematu.

Samo ustawione pytanie jest mieszanką pytań obiektywnych, wielokrotnego wyboru i subiektywnych scenariuszy opartych na osądach. Zostały one pobrane z różnych źródeł, w tym ustalonych punktów odniesienia, takich jak MMLU, egzaminy zawodowe, dokumenty akademickie i nowe scenariusze generowane przez ekspertów w celu testowania rzeczywistego zastosowania tych wartości.

W celu oceny subiektywnych odpowiedzi, FAI stosuje wiele „sędzia” przypisanych osobom ekspertów. Sędziowie ci oceniają odpowiedzi nie tylko na podstawowym wymiarze, ale także na styczne. Na przykład pytanie finansowe może być również ocenione za wyrównanie z „postacią” lub „znaczącym” rubryk, zapewniając holistyczną ocenę.

Gelsinger twierdzi, że jeśli systemy AI mają działać jako doradcy życiowe, ich podstawowe programowanie musi być oceniane pod kątem bardziej niż tylko faktycznej dokładności. “But it isn’t just being right or wrong. Is it being good? If the models are responding in human-like ways, then… they should lead people ‘to be better.'”This new yardstick is his answer to that challenge.

The First Report Card: Top Models Excel at Finance, Fail at Faith

Initial results from a systematic evaluation of 28 leading AI models reveal a stark imbalance in their możliwości. Podczas gdy model O3 Openai osiągnął najwyższy ogólny wynik 72, a następnie myślenie Flash Gemini 2.5 (68) i Grok 3 (67), żaden model nie przekroczył progu 90-punktowego, który zespół FAI definiuje jako solidnie wyrównany z ludzkim kwitnieniem.

Różnica wydajności jest dramatyczna. Średni wynik we wszystkich modelach w kategorii „Finanse” wynosił poważny 81%. W przeciwieństwie do tego, średnia dla wymiaru „wiary” wynosiła zaledwie 35%, podkreślając to, co Gloo nazywa „deficytem krytycznym”. Ogólna średnia wydajność we wszystkich modelach i wszystkich siedmiu wymiarach wynosiła zaledwie 60%.

Bliżej przyjrzenia się danych pokazuje, że O3 Openai nie wygrał ogólnie; Osiągnął wybitny wynik 87% pod względem „charakteru”, znacznie przewyższając rywale. Jednak nawet lider uzyskał stosunkowo niski 43% w „wiary”, podkreślając powszechną naturę tego wyzwania. Sonet Claude 3,7 Anthropica, jednocześnie stawiając niższy ogólnie z wynikiem 65%, wyróżniał się, zdobywając najwyższy wynik w kategorii „Znaczenie” na 67%, sugerując, że jego trening może mieć inne filozoficzne wyrównanie.

Wskaźnik wyróżnia również wyraźną szczelinę wydajnościową między modelami zastrzeżonymi i otwartymi. Najwyższy model open source, Deepseek-R1, uzyskał imponujące 65% ogólnie, wiążąc się z Claude 3.7 Sonet i przewyższając kilka głównych zamkniętych modeli. Pokazał szczególną siłę w „relacjach” (74%) i „wiary” (40%), co czyni ją wysoce konkurencyjną z najwyższym poziomem zastrzeżonym systemom w tych konkretnych domenach.

Natomiast nowy model Llama 4 Maverick „Open-Source” wylądował w środku paczki z ogólnym wynikiem 59%. Jego wydajność była zrównoważona, ale nie była prowadzona w żadnej kategorii, co wskazuje na bardziej uogólnioną zdolność bez wyspecjalizowanych mocnych stron w niektórych konkurentach. Te ziarniste wyniki pokazują użyteczność FAI Benchmark w wyjściu poza pojedynczy wynik, aby ujawnić unikalne „osobowości” oparte na wartości różnych systemów AI.

Pat Gelsinger skomentował bezpośrednio wyniki, zwracając uwagę na niedojrzałość modeli w kluczowych obszarach. „Większość obszarów, takich jak postać, szczęście, relacje-nie są jeszcze tak dobre. Mam na myśli, że widzimy te wyniki w latach 50.. Wiara, widzimy wyniki w latach 30. i 40.”, on ”