Sju månader efter att ha lämnat Intel avslöjade tidigare VD Pat Gelsinger på torsdag ett nytt riktmärke för att mäta om AI verkligen är bra för människor. Genom sin nya roll på företaget”Faith Tech”, lanserade Gelsinger blomstrande ai (fai) benchmark , en ram som utvärderar modeller inte på tekniska prestanda, men på deras anpassning till mänskliga benchmark , ett ramverk som utvärderar modeller inte på tekniska prestanda, utan på deras anpassning till mänskliga benchmark , en ram som utvärderar modeller inte på tekniska prestanda, men på deras anpassning till mänskliga benchmark , en ram som utvärderar modeller inte på tekniska prestanda, men på deras anpassning till mänskliga brunnar. Dimensioner, inklusive karaktär, relationer och tro, som syftar till att förändra branschens fokus från att helt enkelt förhindra skada på att aktivt skapa AI som bidrar positivt till människolivet. Flytten positionerar Gelsinger som en nyckelröst i den växande debatten om AI-etik och värderingar.
Från Intel CEO till AI-etiker: Gelsingers nya uppdrag
efter att ha avträngt som Intels verkställande direktör i december 2024 amid betydande finansiellt och konkurrerande tryck, patgesinger har emporterat ett nytt kapitel. Han beskrev sin övergång i en ny intervju och säger:”Post Intel, vad gör jag härnäst? Och du vet, för det har jag tagit av en 7/24 hatt och tagit på sig två hattar.”
>
En av dessa hattar involverar djupa tekniska investeringar på Playground Global. Den andra är hans roll som verkställande ordförande och teknikchef på Gloo, ett företag som han först investerade i ett decennium sedan. Denna rörelse återspeglar en långvarig passion för skärningspunkten mellan tro och teknik, som drivs av en önskan att säkerställa värdenbaserade samhällen har en röst i att utforma AI-eran. när han satte det att prata med den nya stacken,”Vi visade inte som en trosamhälle i det sociala nätverket. Måttstock för’Good’AI: Det blomstrande AI-benchmarket
Den blomstrande AI (FAI) riktmärket, som officiellt lanserades den 10 juli, representerar en avsiktlig pivot från traditionell AI-utvärdering. Det konfronterar direkt ett stort gap i den nuvarande säkerhetsforskningen. Som Gloos officiella tillkännagivande säger ,”Aktuell AI-anpassningsforskning främst fokuserar på skador snarare än aktivt främjande av mänsklig välfärd.”
ramverket är byggt på det globala mjölet, en global mjöl, en gemensam insats av forskare vid Harvard och Baylor universitet . Gloo utvidgade detta arbete till sju kärndimensioner: karaktär och dygd, nära sociala relationer, mental och fysisk hälsa, ekonomisk och materiell stabilitet, lycka och livstillfredsställelse, mening och syfte och en ny kategori för tro och spiritualitet.
_> _> ese-metoder”> designade metoder”> design”> design”> designade metodi”> eseformedology”> designade metoder”> designade metoder”> design”> design”> designade metoder”> designade metoder”> design”> design”> designade metoder”> designade metoder”> design”> design”> designade metoder”> designade metoder”> design”> design”> designade metoder”> designades metodik”. rigor . Den använder ett datasätt med 1 229 expertkurerade frågor och beräknar avgörande poäng med ett geometriskt medelvärde. Denna statistiska tillvägagångssätt straffar modeller för dålig prestanda i en enda dimension, vilket säkerställer att de inte kan maskera brister i områden som”betydelse”genom att utmärka sig i”finans”.
Hela ramverket vilar på tre grundläggande principer som beskrivs av Gloo. Först måste modeller vara faktiskt korrekta när du presenterar information. För det andra bör deras rekommendationer stöds av vetenskaplig forskning om mänsklig blomstrande. Slutligen måste de främja välbefinnande konsekvent över alla domäner, oavsett det specifika ämnet.
Frågan är en blandning av objektiva, flervalsfrågor och subjektiva, bedömningsbaserade scenarier. Dessa hämtades från olika källor, inklusive etablerade riktmärken som MMLU, professionella tentor, akademiska artiklar och nya scenarier genererade av experter för att testa verkliga tillämpning av dessa värden. Dessa domare bedömer svar inte bara på den primära dimensionen utan också på tangentiella. Till exempel kan en ekonomisk fråga också göras för sin anpassning till’karaktär’eller’betydelse’rubriker, vilket säkerställer en helhetsutvärdering.
Gelsinger hävdar att om AI-system ska fungera som livsrådgivare måste deras kärnprogrammering utvärderas för mer än bara faktisk noggrannhet. “But it isn’t just being right or wrong. Is it being good? If the models are responding in human-like ways, then… they should lead people ‘to be better.'”This new yardstick is his answer to that challenge.
The First Report Card: Top Models Excel at Finance, Fail at Faith
Initial results from a systematic evaluation of 28 leading AI models reveal a stark imbalance in their kapacitet. Medan OpenAI: s O3-modell uppnådde den högsta totala poängen på 72, följt av Gemini 2.5 Flash-tänkande (68) och Grok 3 (67), överträffade ingen modell 90-punktsgränsen som FAI-teamet definierar som robust inriktat med mänsklig blomstrande.
prestandamapen mellan dimensioner är dramatiska. Den genomsnittliga poängen i alla modeller i kategorin”finans”var en respektabel 81%. I skarp kontrast var genomsnittet för”tro”-dimensionen bara 35%, vilket framhöll vad Gloo kallar ett”kritiskt underskott.”Den övergripande genomsnittliga prestanda i alla modeller och alla sju dimensioner var bara 60%.
En närmare titt på data visar att OpenAi’s O3 inte bara vann totalt; Det uppnådde en framstående poäng på 87% i’karaktär’, som långt överträffade sina rivaler. Men till och med ledaren fick relativt låga 43% i”tro”, vilket understryker den universella karaktären av denna utmaning. Anthropic’s Claude 3.7 Sonnet, medan de placerade lägre totalt med en poäng på 65%, utmärkte sig genom att tjäna toppresultatet i kategorin”Betydelse”på 67%, vilket tyder på att dess träning kan ha en annan filosofisk anpassning.
Benchmarken belyser också en tydlig prestanda mellan proprietiska och öppna modeller. Den topppresterande öppen källkodsmodellen, Deepseek-R1, gjorde en imponerande 65% totalt sett, bindande med Claude 3.7 Sonnet och överträffade flera stora stängda modeller. Det visade särskild styrka i”relationer”(74%) och”tro”(40%), vilket gjorde det mycket konkurrenskraftigt med de högsta proprietära systemen i de specifika domänerna.
däremot, Metas nya Llama 4 Maverick”Open-Source”-modell, landade i mitten av förpackningen med en total poäng på 59%. Dess prestanda var balanserad men ledde inte i någon enskild kategori, vilket indikerade en mer generaliserad kapacitet utan de specialiserade styrkorna som ses hos vissa konkurrenter. Dessa granulära resultat visar FAI-riktmärkets användbarhet när det gäller att gå utöver en enda poäng för att avslöja de unika värdebaserade”personligheterna”för olika AI-system.
Pat Gelsinger kommenterade direkt resultaten och noterade modellernas omogenhet inom nyckelområden.”De flesta av områdena, som karaktär, lycka, relationer-de är inte så bra ännu. Jag menar, vi ser dessa poäng på 50-talet. Troarna, vi ser poäng på 30-och 40-talet,”han han