Syv måneder etter at han forlot Intel, avduket tidligere administrerende direktør Pat Gelsinger torsdag et nytt referanseindeks designet for å måle om AI virkelig er bra for folk. Gjennom sin nye rolle i”Faith Tech”-firmaet Gloo, lanserte Gelsinger Flourishing AI (FAI) Benchmark , et ramme som evaluerer modeller som ikke er en ramme. Sentrale dimensjoner, inkludert karakter, forhold og tro, som tar sikte på å forskyve bransjens fokus fra å bare forhindre skade på aktivt å skape AI som bidrar positivt til menneskelivet. Flyttingen posisjonerer Gelsinger som en nøkkelstemme i den økende debatten om AI-etikk og verdier.

fra Intel CEO til AI Ethicist: Gelsingers nye oppdrag

Etter å ha gått ned som Intels administrerende direktør i desember 2024. Han beskrev overgangen sin i et nylig intervju, og sa:”Post Intel, hva gjør jeg videre? Og du vet, for det har jeg tatt av meg en 7/24 hatt og satt på to hatter.”

En av disse hattene involverer dyp tech-investering på Playground Global. Den andre er hans rolle som administrerende direktør og teknologisjef i Gloo, et selskap han først investerte i for et tiår siden. Dette trekket gjenspeiler en langvarig lidenskap for skjæringspunktet mellom tro og teknologi, drevet av et ønske om å sikre at verdibaserte samfunn har en stemme i utformingen av AI-tiden. som han satte det vi vil ha en tro på det nye. Målestokk for ‘god’ AI: Den blomstrende AI-referansen

Den blomstrende AI (FAI) målestokken, offisielt lansert 10. juli, representerer en bevisst sving fra tradisjonell AI-evaluering. Det konfronterer et stort gap i dagens sikkerhetsforskning. Som Gloos offisielle kunngjøring States ,”Current AI Alignment Research fokuserer hovedsakelig på en skadeforebygging i stedet for aktiv promotering av menneskelig velferd. href=”https://gloo.com/flourishing-hub/Research”Target=”_ Blank”> Felles innsats av forskere ved Harvard og Baylor Universities . Gloo utvidet dette arbeidet til syv kjernedimensjoner: Karakter og dyd, nære sosiale relasjoner, mental og fysisk helse, økonomisk og materiell stabilitet, lykke og livstilfredshet, mening og formål, og en ny kategori for tro og spiritualitet.

. Den bruker et datasett med 1 229 ekspertkuraterte spørsmål og beregner avgjørende score ved bruk av et geometrisk middel. Denne statistiske tilnærmingen straffer modeller for dårlig ytelse i en enkelt dimensjon, og sikrer at de ikke kan maskere mangler på områder som ‘mening’ ved å utmerke seg i ‘finans’.

Hele rammen hviler på tre grunnleggende prinsipper skissert av Gloo. For det første må modeller være faktisk nøyaktige når du presenterer informasjon. For det andre bør anbefalingene deres støttes av vitenskapelig forskning på menneskelig blomstring. Til slutt må de fremme trivsel konsekvent på tvers av alle domener, uavhengig av det spesifikke emnet for hånden.

Selve spørsmål er en blanding av objektive, flervalgsspørsmål og subjektive, domsbaserte scenarier. Disse ble hentet fra forskjellige kilder, inkludert etablerte benchmarks som MMLU, profesjonelle eksamener, akademiske artikler og nye scenarier generert av eksperter for å teste den virkelige verdenen av disse verdiene.

For å evaluere subjektive svar bruker FAI flere”dommer”llms tildelte ekspertpersoner. Disse dommerne vurderer svarene ikke bare på den primære dimensjonen, men også på tangensielle. For eksempel kan et økonomisk spørsmål også bli scoret for sin tilpasning til ‘karakteren’ eller ‘menings’ rubrikker, og sikre en helhetlig evaluering.

Gelsinger hevder at hvis AI-systemer skal fungere som livsrådgivere, må deres kjerneprogrammering evalueres for mer enn bare fakta nøyaktighet.”Men det er ikke bare å ha rett eller galt. Er det bra? Hvis modellene reagerer på menneskelignende måter, så… bør de føre folk til å bli bedre.'”Denne nye målestokken er hans svar på den utfordringen.

Det første rapporten: Topp modeller Excel at Finance, mislykkes

ytelsesgapet mellom dimensjoner er dramatisk. Gjennomsnittlig poengsum på tvers av alle modeller i kategorien ‘Finans’ var respektable 81%. I sterk kontrast var gjennomsnittet for”tro”-dimensjonen bare 35%, og fremhevet det Gloo kaller et”kritisk underskudd.”Den totale gjennomsnittlige ytelsen på alle modeller og alle syv dimensjoner var bare 60%.

En nærmere titt på dataene viser at Openais O3 ikke bare vant totalt sett; Det oppnådde en fremtredende poengsum på 87% i ‘karakter’, og overgikk langt rivalene. Selv lederen scoret imidlertid relativt lavt 43% i ‘tro’, og understreket den universelle naturen til denne utfordringen. Anthropics Claude 3.7 sonnet, mens han totalt sett på 65%, skilte seg selv ved å tjene toppscore i kategorien ‘Betydning’ på 67%, noe som antyder at dens trening kan ha en annen filosofisk innretting.

Benchmark også fremhever et klart ytelsesgap mellom proprietær og åpen kildemodeller. Den topppresterende open source-modellen, DeepSeek-R1, scoret en imponerende 65% totalt, og binder seg med Claude 3,7 sonnet og overgikk flere store lukkede modeller. Det viste spesiell styrke i ‘relasjoner’ (74%) og ‘tro’ (40%), noe som gjorde det svært konkurransedyktig med de beste nivåene i de spesifikke domenene.

I kontrast landet Metas nye Llama 4 Maverick “open source”-modell, i midten av pakken med en total score på 59%. Resultatene var balansert, men ledet ikke i noen enkelt kategori, noe som indikerte en mer generalisert evne uten de spesialiserte styrkene som ble sett i noen konkurrenter. Disse granulære resultatene demonstrerer FAI-benchmarks verktøy i å bevege seg utover en enkelt poengsum for å avsløre den unike verdibaserte “personligheter” av forskjellige AI-systemer.

Pat Gelsinger kommenterte direkte resultatene og la merke til modellenes umodenhet på viktige områder.”De fleste av områdene, som karakter, lykke, forhold-de er ikke så gode ennå. Jeg mener, vi ser disse poengsumene på 50-tallet. Faith Ones, vi ser score på 30-og 40-tallet,”han