Hét hónappal az Intel távozása után, Pat Gelsinger volt vezérigazgató csütörtökön bemutatta egy új referenciaértéket, amelynek célja, hogy mérje, hogy az AI valóban jó-e az emberek számára. A „Faith Tech” Gloo cég új szerepe révén Gelsinger elindította a virágzó AI (FAI) Benchmark , ez egy olyan keret, amely értékeli a modelleket, hanem a héten, hanem az emberi jólétükkel való értékelést. A dimenziók, beleértve a karaktert, a kapcsolatokat és a hitet is, arra törekszenek, hogy az iparág fókuszát egyszerűen megakadályozzák a károk egyszerű megakadályozásáról az AI aktív létrehozására, amely pozitívan hozzájárul az emberi élethez. A lépés a Gelsinger-t mint kulcsfontosságú hangot helyez az AI etikáról és értékeiről szóló növekvő vitában. Egy nemrégiben készített interjúban írta le az átmenetet, kijelentve: „Post Intel, mit tegyek a következő? És tudod, ezért levettem egy 7/24 kalapot, és két kalapot tettem. src=”adatok: image/svg+xml; nitro-üres-id=mty0nzoymJy3-1; base64, phn2zyb2awv3qm94psiwidagmtiznia4mj giihdpzhropsixmjm2iibozwlnahq9ijgyocigeg1sbnm9imh0dha6lyy93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>
Az egyik ilyen kalap magában foglalja a mély technológiai befektetést a Playground Global-ban. A másik a Gloo ügyvezető elnökeként és technológiai vezetőjeként, egy olyan társaságban, amelyet először egy évtizeddel ezelőtt fektetett be. Ez a lépés tükrözi a hit és a technológia kereszteződésének régóta fennálló szenvedélyét, amelyet az értékalapú közösségek hangzásának biztosításának vágya vezet az AI-korszak kialakításában. , ahogy azt állította, hogy az új halommal beszéltünk: „Nem mutattunk be hitközösségként a szociális hálózat korszakában. Mertesítő a „jó” AI-hez: A virágzó AI-benchmark
A virágzó AI (FAI) referenciaérték, amelyet hivatalosan július 10-én indítottak, szándékos elfordulást jelent a hagyományos AI értékelésből. Közvetlenül szembesül a jelenlegi biztonsági kutatás jelentős különbségével. Ahogy a Gloo hivatalos bejelentése államok , „A jelenlegi AI igazítási kutatás elsősorban a káros megelőzésre összpontosít, nem pedig az emberi jólét aktív promóciójára.” href=”https://gloo.com/flourishing-hub/research”cél=”_ üres”> A Harvard és a Baylor Egyetemek kutatói közös erőfeszítései
. A Gloo ezt a munkát hét alapdimenzióra bővítette: karakter és erény, szoros társadalmi kapcsolatok, mentális és fizikai egészség, pénzügyi és anyagi stabilitás, boldogság és élettartam-elégedettség, jelentés és cél, valamint egy új kategória a hit és a lelkiség számára. RIGOR . 1,229 szakértővel kurátoros kérdésből álló adatkészletet használ, és alapvetően geometriai átlaggal kiszámítja a pontszámokat. Ez a statisztikai megközelítés bünteti a modelleket a rossz teljesítményért egyetlen dimenzióban, biztosítva, hogy nem tudják elfedni a hiányosságokat olyan területeken, mint a „jelentés”, a „pénzügy” kitűnője révén. Először is, a modelleknek ténylegesen pontosaknak kell lenniük az információk bemutatásakor. Másodszor, ajánlásaikat az emberi virágzásról szóló tudományos kutatásokkal kell alátámasztani. Végül, minden területen következetesen elő kell mozdítaniuk a jólétet, függetlenül a jelen témától. Ezeket különféle forrásokból vették, ideértve a megalapozott referenciaértékeket, például az MMLU-t, a szakmai vizsgákat, az akadémiai dokumentumokat és a szakértők által generált új forgatókönyveket ezen értékek valós alkalmazásának tesztelésére. Ezek a bírók nemcsak az elsődleges dimenzióra, hanem a tangenciálisra is értékelik a válaszokat. Például egy pénzügyi kérdést is lehet pontozni a „karakter” vagy a „jelentés” rubrikával való igazításáért is, biztosítva a holisztikus értékelést. „De nemcsak helyes vagy rossz. Jó-e? Ha a modellek emberszerű módon reagálnak, akkor… az embereket jobbnak kell lenniük. képességek. Míg az Openai O3 modellje elérte a legmagasabb 72-es pontszámot, amelyet a Gemini 2.5 Flash gondolkodás (68) és a Grok 3 (67) követ, egyetlen modell sem haladta meg a 90 pontos küszöböt, amelyet az FAI-csapat határozottan igazít az emberi virágzáshoz. A „pénzügyek” kategóriában szereplő összes modell átlagos pontszáma tiszteletreméltó 81%volt. Éles ellentétben a „hit” dimenzió átlaga mindössze 35%volt, kiemelve, amit Gloo „kritikus hiánynak” hív. Az összes modell és mind a hét dimenzió teljes átlagos teljesítménye mindössze 60%volt. 87%-os kiemelkedő pontszámot ért el a „karakterben”, ami messze meghaladta a riválisait. Ugyanakkor még a vezető is viszonylag alacsony 43%-ot szerzett a „hitben”, hangsúlyozva ennek a kihívásnak az egyetemes természetét. Az Antropic’s Claude 3.7 szonett, miközben az összességében 65%-os ponttal alacsonyabb szintre helyezkedik el, megkülönböztette magát azáltal, hogy a „jelentés” kategóriában a legmagasabb pontszámot 67%-ra juttatja, ami arra utal, hogy képzésének eltérő filozófiai igazítása lehet. A legjobban teljesítő nyílt forráskódú modell, a DeepSeek-R1, összességében lenyűgöző 65%-ot szerzett, a Claude 3.7 szonettjével és a több fő zárt modell felülmúlásával. Különös erősséget mutatott a „kapcsolatok” (74%) és a „hit” (40%) területén, így rendkívül versenyképessé tette a legmagasabb szintű védett rendszereket az adott területeken. Teljesítménye kiegyensúlyozott volt, de egyetlen kategóriában sem vezette, jelezve az általánosabb képességet, anélkül, hogy egyes versenytársakban láttak. Ezek a szemcsés eredmények azt mutatják, hogy a FAI benchmark hasznossága az egyetlen pontszámon túllép, hogy felfedje a különböző AI rendszerek egyedi érték-alapú „személyiségeit”. src=”adatok: image/svg+xml; nitro-üres-id=mty1mtoxoda0-1; base64, phn2zyb2awv3qm94psiwidagotu5idczoc IGD2LKDGG9IJK1OSIGAGVPZ2H0PSI3MZGIIHHTBG5ZPSJODHRWOI8VD3D3D3LNCZLM9YZY8YMDAWL3N2ZYI+PC9ZDMC+”>
Pat Gelsinger közvetlenül kommentálta az eredményeket, megjegyezve a modellek éretlenségét a kulcsfontosságú területeken.”A területek többsége, mint a karakter, a boldogság, a kapcsolatok-még nem olyan jók. Úgy értem, látjuk ezeket az eredményeket az 50-es években. A hit, a 30-as és 40-es években pontszámokat látunk”-, ő