離開英特爾七個月後,前首席執行官帕特·蓋爾辛格(Pat Gelsinger)週四推出了一種新的基準測試,旨在衡量AI是否對人的真正有益。通過他在“信仰技術”公司Gloo中的新角色,Gelsinger推出了繁榮的AI(fai)基準 ,一個框架,該框架對技術績效的評估卻不在技術績效方面,而不是在技術效果上進行評估,而是跨越了七個範圍的模型,包括人體良好的

品格,人際關係和信仰,旨在將行業的重點從簡單地防止傷害轉移到積極創造對人類生活的積極貢獻的AI。此舉將蓋辛格(Gelsinger)定位為對AI道德和價值觀的越來越多的辯論。

從英特爾首席執行官到AI道德學家:蓋爾辛格的新任務

在英特爾(Intel)在英特爾(Intel)的首席執行官中踏上了巨大的財務和競爭性的壓力,佩特·吉爾塞林(Pat Gelsinger)逐漸出現了新的款項。他在最近的一次採訪中描述了他的過渡,他說:“英特爾後,我接下來要做什麼?您知道,您知道,我脫下了一個7/24的帽子,戴了兩個帽子。”

“>

這些帽子之一涉及在Playground Global上進行深技術投資。另一個是他擔任Gloo的執行董事和技術主管,Gloo是他十年前首次投資的一家公司。這一舉動反映了人們對信仰與技術交集的長期激情,這是在確保基於價值的社區塑造AI時代的願望的願望的驅動下。 正如他所說的那樣與新的堆棧交談,“我們沒有在社交網絡時代出現在社交網絡時代的信仰社區。 “良好” AI的標準:繁榮的AI基準

繁榮的AI(FAI)基準於7月10日正式推出,代表了傳統AI評估的故意樞紐。它直接面對當前安全研究的主要差距。正如Gloo的官方公告 stores ,“當前的AI對準研究主要集中於預防傷害,而不是積極的人類福利促進。 href=“ https://gloo.com/flourishing-hub/research” target=“ _ blank”>哈佛大學和貝勒大學的研究人員共同努力。 Gloo將這項工作擴展到了七個核心方面:角色和美德,緊密的社會關係,心理和身體健康,財務和物質穩定,幸福和生活滿意度,意義和目的,以及信仰和靈性的新類別。

。它使用1,229個專家策劃問題的數據集,並使用幾何平均值來計算得分。這種統計方法在任何單個維度上都懲罰了模型的模型,從而確保它們不能通過出色的“金融”來掩蓋“含義”等領域的缺陷。

整個框架都取決於Gloo概述的三個基礎原則。首先,在提供信息時,模型必須是準確的。其次,他們的建議應得到有關人類蓬勃發展的科學研究的支持。最後,無論目前的特定主題如何。

問題集本身是客觀,多選擇問題和基於判斷的主觀的場景的混合。這些是從各種來源中得出的,包括諸如MMLU,專業考試,學術論文以及專家生成的新場景,以測試這些價值觀的真實世界應用。

評估主觀答案,FAI採用多個“法官” LLMS分配的專家分配的人。這些法官不僅評估了對主要維度的回答,而且還評估了切線的響應。例如,與“角色”或“含義”專欄的一致性,確保整體評估的一致性也可能會得分。

gelsinger認為,如果AI系統應充當生命顧問,則必須對其核心編程進行評估,而不僅僅是事實準確。 “But it isn’t just being right or wrong. Is it being good? If the models are responding in human-like ways, then… they should lead people ‘to be better.'”This new yardstick is his answer to that challenge.

The First Report Card: Top Models Excel at Finance, Fail at Faith

Initial results from a systematic evaluation of 28 leading AI models reveal a stark imbalance in their功能。儘管OpenAI的O3模型獲得了72的最高總分,其次是Gemini 2.5 Flash Thinking(68)和Grok 3(67),但沒有模型超過FAI團隊與人類蓬勃發展的90分閾值。

維度之間的性能差距很大。 “財務”類別中所有模型的平均得分為81%。相比之下,“信仰”維度的平均值僅為35%,強調了Gloo所謂的“批判性赤字”。所有型號和所有七個維度的總體平均表現僅為60%。

仔細查看數據表明Openai的O3不僅贏得了整體勝利;它在“角色”中取得了87%的出色分數,超過了競爭對手。但是,即使領導者在“信仰”中也獲得了相對較低的43%,強調了這一挑戰的普遍性質。 Anthropic的Claude 3.7十四行詩雖然以65%的分數取得較低的總體,但通過在“意義”類別中獲得最高分數為67%,這表明其訓練可能具有不同的哲學對齊方式。

基準還強調了前所未有的和開放式模型之間的明顯表現差距。表現最佳的開源車型DeepSeek-R1總體上獲得了令人印象深刻的65%,與Claude 3.7十四行詩並列,表現優於幾個主要的封閉型號。它在“關係”(74%)和“信仰”(40%)中表現出了特殊的力量,使其與這些特定領域的頂級專有系統具有很高的競爭力。

相比之下,Meta的新Llama 4 Maverick“ Open-Source” Models的整體得分為59%。它的性能是平衡的,但並未在任何類別中領先,表明沒有一些競爭對手的專業優勢,具有更普遍的能力。這些粒狀結果表明,FAI基準測試的實用性超出了單個分數,以揭示不同AI系統的唯一基於價值的“個性”。

Pat Gelsinger直接評論了結果,並指出了模型在關鍵領域的不成熟。 “大多數領域,例如角色,幸福,人際關係-它們還不那麼好。我的意思是,我們看到了50年代的分數。信仰的人,我們看到了30年代和40年代的成績,”他