pitong buwan matapos umalis sa Intel, ang dating CEO Pat Gelsinger noong Huwebes ay nagbukas ng isang bagong benchmark na idinisenyo upang masukat kung ang AI ay tunay na mabuti para sa mga tao. Sa pamamagitan ng kanyang bagong papel sa firm na”Faith Tech”firm na si Gloo, inilunsad ni Gelsinger ang umunlad ang benchmark ng AI (FAI) Ang karakter, relasyon, at pananampalataya, na naglalayong ilipat ang pokus ng industriya mula sa pag-iwas sa pinsala sa aktibong paglikha ng AI na positibo sa buhay ng tao. Ang mga posisyon ng paglipat ng Gelsinger bilang isang pangunahing boses sa lumalagong debate tungkol sa mga etika at halaga ng AI. Inilarawan niya ang kanyang paglipat sa isang kamakailan-lamang na pakikipanayam, na nagsasabi,”Mag-post ng Intel, ano ang gagawin ko sa susunod? At alam mo, para doon, tinanggal ko ang isang 7/24 na sumbrero at inilagay sa dalawang sumbrero.”
Ang isa sa mga sumbrero ay nagsasangkot ng malalim na pamumuhunan sa tech sa Playground Global. Ang iba pa ay ang kanyang papel bilang executive chair at pinuno ng teknolohiya sa Gloo, isang kumpanya na una niyang namuhunan sa isang dekada na ang nakalilipas. Ang hakbang na ito ay sumasalamin sa isang matagal na pagnanasa para sa intersection ng pananampalataya at teknolohiya, na hinihimok ng isang pagnanais na matiyak na ang mga pamayanan na batay sa mga halaga ay may tinig sa paghubog ng panahon ng AI. pakikipag-usap sa bagong stack,”Hindi kami lumitaw bilang isang pamayanan ng pananampalataya sa panahon ng social networking. Bagong bakuran para sa’Good’AI: Ang umunlad na benchmark ng AI Direkta nitong kinokontrol ang isang pangunahing agwat sa kasalukuyang pananaliksik sa kaligtasan. Tulad ng opisyal na anunsyo ni Gloo estado ,”Kasalukuyang AI Alignment Research na nakararami na nakatuon sa pag-iwas sa pinsala sa halip na aktibong pagsulong ng kapakanan ng tao.”href=”https://gloo.com/flourishing-hub/research”target=”_ blangko”> pinagsamang pagsisikap ng mga mananaliksik sa Harvard at Baylor Unibersidad . Pinalawak ni Gloo ang gawaing ito sa pitong pangunahing sukat: pagkatao at kabutihan, malapit na ugnayan sa lipunan, kalusugan sa kaisipan at pisikal, katatagan at materyal na katatagan, kaligayahan at kasiyahan sa buhay, kahulugan at layunin, at isang bagong kategorya para sa pananampalataya at pagka-espiritwalidad. Rigor . Gumagamit ito ng isang dataset ng 1,229 na mga katanungan na may curated na dalubhasa at, sa simula, kinakalkula ang mga marka gamit ang isang geometric na kahulugan. Ang diskarte sa istatistika na ito ay parusahan ang mga modelo para sa hindi magandang pagganap sa anumang solong sukat, na tinitiyak na hindi nila mai-mask ang mga kakulangan sa mga lugar tulad ng’kahulugan’sa pamamagitan ng kahusayan sa’pananalapi’. Una, ang mga modelo ay dapat na tumpak na tumpak kapag nagtatanghal ng impormasyon. Pangalawa, ang kanilang mga rekomendasyon ay dapat suportahan ng pang-agham na pananaliksik sa pag-unlad ng tao. Sa wakas, dapat nilang itaguyod ang kagalingan nang palagi sa lahat ng mga domain, anuman ang tiyak na paksa sa kamay. Ang mga ito ay iginuhit mula sa magkakaibang mga mapagkukunan, kabilang ang mga itinatag na benchmark tulad ng MMLU, propesyonal na pagsusulit, pang-akademikong papel, at mga bagong senaryo na nabuo ng mga eksperto upang subukan ang tunay na mundo na aplikasyon ng mga halagang ito. Sinusuri ng mga hukom na ito ang mga tugon hindi lamang sa pangunahing sukat kundi pati na rin sa mga tangential. Halimbawa, ang isang pinansiyal na katanungan ay maaari ring puntos para sa pagkakahanay nito sa’character’o’kahulugan’rubrics, tinitiyak ang isang holistic na pagsusuri.”Ngunit hindi lamang ito tama o mali. Mabuti ba? Kung ang mga modelo ay tumutugon sa mga paraan na tulad ng tao, kung gayon… dapat nilang pamunuan ang mga tao na maging mas mahusay.'”Ang bagong bakuran na ito ay ang kanyang sagot sa hamon na iyon. kakayahan. Habang nakamit ng OpenAi’s O3 Model ang pinakamataas na pangkalahatang marka ng 72, na sinundan ng Gemini 2.5 Flash Thinking (68) at Grok 3 (67), walang modelo na lumampas sa 90-point threshold na tinukoy ng koponan ng FAI na matatag na nakahanay sa pag-unlad ng tao. Ang average na marka sa lahat ng mga modelo sa kategoryang’Pananalapi’ay isang kagalang-galang na 81%. Sa kaibahan ng kaibahan, ang average para sa sukat ng’pananampalataya’ay isang 35%lamang, na itinampok ang tinatawag na Gloo na isang”kritikal na kakulangan.”Ang pangkalahatang average na pagganap sa lahat ng mga modelo at lahat ng pitong sukat ay 60%lamang. Nakamit nito ang isang standout score na 87% sa’character’, na higit na higit sa mga karibal nito. Gayunpaman, kahit na ang pinuno ay nakapuntos ng medyo mababang 43% sa’pananampalataya’, na binibigyang diin ang unibersal na kalikasan ng hamon na ito. Ang Anthropic’s Claude 3.7 Sonnet, habang inilalagay ang mas mababang pangkalahatang may marka na 65%, nakikilala ang sarili sa pamamagitan ng pagkamit ng nangungunang marka sa kategoryang’kahulugan’sa 67%, na nagmumungkahi ng pagsasanay nito ay maaaring magkaroon din ng ibang pilosopikal na pag-align. Ang pinakamataas na pagganap na open-source model, Deepseek-R1, ay nakapuntos ng isang kahanga-hangang 65% sa pangkalahatan, na tinali sa Claude 3.7 Sonnet at outperforming ng ilang mga pangunahing saradong modelo. Nagpakita ito ng partikular na lakas sa’mga relasyon'(74%) at’pananampalataya'(40%), na ginagawang lubos na mapagkumpitensya sa mga top-tier proprietary system sa mga tiyak na domain. Ang pagganap nito ay balanse ngunit hindi humantong sa anumang solong kategorya, na nagpapahiwatig ng isang mas pangkalahatang kakayahan nang walang dalubhasang lakas na nakikita sa ilang mga kakumpitensya. Ang mga butil na resulta na ito ay nagpapakita ng utility ng FAI Benchmark sa paglipat na lampas sa isang solong marka upang maihayag ang natatanging halaga na batay sa”mga personalidad”ng iba’t ibang mga sistema ng AI. src=”data: imahe/svg+xml; nitro-empty-id=mty1mtoxoda0-1; base64, phn2zyb2awv3qm94psiwidagotu5idczoc IGD2LKDGG9IJK1OSIGAGVPZ2H0PSI3MZGIIHHTBG5ZPSJODHRWOI8VD3D3LNCZLM9YZY8YMDAWL3N2ZYI+PC9ZDMC+”>
Pat Gelsinger ay direktang nagkomento sa mga resulta, na napansin ang kawalang-hanggan ng mga modelo sa mga pangunahing lugar.”Karamihan sa mga lugar, tulad ng pagkatao, kaligayahan, relasyon-hindi pa sila maganda. Ibig kong sabihin, nakikita natin ang mga marka na iyon noong 50s. Ang mga pananampalataya, nakakakita tayo ng mga marka sa 30s at 40s,”he