Zeven maanden na het verlaten van Intel onthulde voormalig CEO Pat Gelsinger donderdag een nieuwe benchmark die is ontworpen om te meten of AI echt goed is voor mensen. Through his new role at the “faith tech”firm Gloo, Gelsinger launched the Flourishing AI (FAI) benchmark, a framework that evaluates models not on technical performance, but on their alignment with human well-being.

This new test assesses models across seven key Dimensies, inclusief karakter, relaties en geloof, gericht op het verleggen van de focus van de industrie om eenvoudigweg schade te voorkomen om AI actief te creëren die positief bijdraagt ​​aan het menselijk leven. De beweging positioneert Gelsinger als een belangrijke stem in het groeiende debat over AI-ethiek en waarden.

van Intel CEO tot AI Ethicist: de nieuwe missie van Gelsinger

Na het aftreden als de Chief Executive van Intel in december 2024 te midden van belangrijke financiële en concurrerende drukken, heeft PAT GELGELSINGER in een nieuw hoofdstuk. Hij beschreef zijn overgang in een recent interview, waarin stond:”Na Intel, wat moet ik nu doen? En weet je, daarvoor heb ik één 7/24 hoed afgehaald en twee hoeden opgezet.”

Een van die hoeden omvat diepe technische investering bij Playground Global. De andere is zijn rol als uitvoerende voorzitter en hoofd van technologie bij Gloo, een bedrijf dat hij voor het eerst in tien jaar geleden heeft geïnvesteerd. Deze beweging weerspiegelt een langdurige passie voor het snijvlak van geloof en technologie, gedreven door een verlangen om waar te zorgen dat op waarden gebaseerde gemeenschappen een stem hebben in het vormgeven van het AI-tijdperk. zoals hij het zei Talking to the New Stack,”We kwamen niet verschijnen als een geloofsgemeenschap in het sociale netwerk-tijdperk. Oardstick voor ‘Good’ AI: de bloeiende AI-benchmark

De bloeiende AI (FAI) benchmark, officieel gelanceerd op 10 juli, vertegenwoordigt een opzettelijke pivot van traditionele AI-evaluatie. Het confronteert direct een grote kloof in het huidige veiligheidsonderzoek. Als de officiële aankondiging van Gloo stelt ,”De huidige AI-uitlijningsonderzoek richt zich voornamelijk op het preventie van schade in plaats van actieve promotie van menselijk welzijn.”href=”https://gloo.com/flourishing-hub/research”target=”_ blank”> gezamenlijke inspanning door onderzoekers van Harvard en Baylor Universities . Gloo breidde dit werk uit naar zeven kerndimensies: karakter en deugd, sluiten sociale relaties, mentale en fysieke gezondheid, financiële en materiële stabiliteit, geluk en leven tevredenheid, betekenis en doel, en een nieuwe categorie voor geloof en spiritualiteit.

Het hele framework berust op drie fundamentele principes die door Gloo worden beschreven. Ten eerste moeten modellen feitelijk nauwkeurig zijn bij het presenteren van informatie. Ten tweede moeten hun aanbevelingen worden ondersteund door wetenschappelijk onderzoek naar menselijke bloei. Ten slotte moeten ze welzijn consequent over alle domeinen promoten, ongeacht het specifieke onderwerp dat bij de hand is.

De vraag die zelf is ingesteld, is een mix van objectieve, multiple-choice vragen en subjectieve, op beoordeling gebaseerde scenario’s. Deze werden afkomstig uit verschillende bronnen, waaronder gevestigde benchmarks zoals MMLU, professionele examens, academische papers en nieuwe scenario’s die door experts zijn gegenereerd om de reële toepassing van deze waarden te testen.

Om subjectieve antwoorden te evalueren, heeft de FAI meerdere”rechter”LLMS toegewezen deskundige personen. Deze rechters beoordelen antwoorden niet alleen op de primaire dimensie, maar ook op tangentiële. Een financiële vraag kan bijvoorbeeld ook worden gescoord vanwege zijn afstemming met het ‘karakter’ of ‘betekenis’ rubrieken, waardoor een holistische evaluatie wordt gewaarborgd.

Gelsinger betoogt dat als AI-systemen als levensadviseurs moeten optreden, hun kernprogrammering moet worden geëvalueerd voor meer dan alleen feitelijke nauwkeurigheid. “But it isn’t just being right or wrong. Is it being good? If the models are responding in human-like ways, then… they should lead people ‘to be better.'”This new yardstick is his answer to that challenge.

The First Report Card: Top Models Excel at Finance, Fail at Faith

Initial results from a systematic evaluation of 28 leading AI models reveal a stark imbalance in their mogelijkheden. Terwijl het O3-model van Openai de hoogste algemene score van 72 behaalde, gevolgd door Gemini 2.5 Flash Thinking (68) en GROK 3 (67), overtrof geen model de 90-punts drempel die het FAI-team definieert als robuust uitgelijnd met menselijke bloei. De gemiddelde score voor alle modellen in de categorie ‘Financiën’ was een respectabele 81%. In schril contrast was het gemiddelde voor de dimensie’geloof’slechts 35%, wat benadrukte wat Gloo een’kritisch tekort’noemt. De algehele gemiddelde prestaties in alle modellen en alle zeven dimensies waren slechts 60%.

Een nadere blik op de gegevens toont Openai’s O3 niet alleen in het algemeen; Het behaalde een opvallende score van 87% in ‘Character’, die zijn rivalen ver overtreft. Zelfs de leider scoorde echter een relatief lage 43% in ‘geloof’, wat de universele aard van deze uitdaging onderstreept. Het Claude 3.7-sonnet van Anthropic, terwijl hij een lager algemeen plaatste met een score van 65%, onderscheidde zich door het behalen van de topscore in de categorie’betekenis’op 67%, wat suggereert dat de training een andere filosofische afstemming kan hebben.

De benchmark benadrukt ook een duidelijke prestatiekap tussen eigen en open-source-modellen. Het best presterende open-source model, Deepseek-R1, scoorde een indrukwekkende 65% in het algemeen, bonden met Claude 3.7-sonnet en het beter dan verschillende grote gesloten modellen. Het toonde bijzondere kracht in ‘relaties’ (74%) en ‘geloof’ (40%), waardoor het zeer competitief was met de topseigense systemen in die specifieke domeinen.

In tegenstelling tot het nieuwe LLAMA 4 Maverick”open-source”model, landde in het midden van het peloton van 59%. De prestaties waren in evenwicht, maar leidden niet in een enkele categorie, wat duidt op een meer gegeneraliseerde mogelijkheden zonder de gespecialiseerde sterke punten die bij sommige concurrenten werden gezien. Deze gedetailleerde resultaten tonen het hulpprogramma van de FAI-benchmark in het verder gaan dan een enkele score om de unieke op waarde gebaseerde”persoonlijkheden”van verschillende AI-systemen te onthullen.

Pat Gelsinger gaf rechtstreeks commentaar op de resultaten en merkte de onvolwassenheid van de modellen op in belangrijke gebieden op.”De meeste gebieden, zoals karakter, geluk, relaties-ze zijn nog niet zo goed. Ik bedoel, we zien die scores in de jaren 50. De geloofs, we zien scores in de jaren 30 en 40s,”hij