Az Intel volt vezérigazgatója, Pat Gelsinger bemutatja az AI benchmarkot, hogy mérje az „emberi virágzás" igazítását

Hét hónappal az Intel távozása után, Pat Gelsinger volt vezérigazgató csütörtökön bemutatta egy új referenciaértéket, amelynek célja, hogy mérje, hogy az AI valóban jó-e az emberek számára. A „Faith Tech” Gloo cég új szerepe révén Gelsinger elindította a virágzó AI (FAI) Benchmark , ez egy olyan keret, amely értékeli a modelleket, hanem a héten, hanem az emberi jólétükkel való értékelést. A dimenziók, beleértve a karaktert, a kapcsolatokat és a hitet is, arra törekszenek, hogy az iparág fókuszát egyszerűen megakadályozzák a károk egyszerű megakadályozásáról az AI aktív létrehozására, amely pozitívan hozzájárul az emberi élethez. A lépés a Gelsinger-t mint kulcsfontosságú hangot helyez az AI etikáról és értékeiről szóló növekvő vitában. Egy nemrégiben készített interjúban írta le az átmenetet, kijelentve: „Post Intel, mit tegyek a következő? És tudod, ezért levettem egy 7/24 kalapot, és két kalapot tettem. src=”adatok: image/svg+xml; nitro-üres-id=mty0nzoymJy3-1; base64, phn2zyb2awv3qm94psiwidagmtiznia4mj giihdpzhropsixmjm2iibozwlnahq9ijgyocigeg1sbnm9imh0dha6lyy93d3cudzmub3jnlziwmdavc3znij48l3n2z4=”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>”>

Az egyik ilyen kalap magában foglalja a mély technológiai befektetést a Playground Global-ban. A másik a Gloo ügyvezető elnökeként és technológiai vezetőjeként, egy olyan társaságban, amelyet először egy évtizeddel ezelőtt fektetett be. Ez a lépés tükrözi a hit és a technológia kereszteződésének régóta fennálló szenvedélyét, amelyet az értékalapú közösségek hangzásának biztosításának vágya vezet az AI-korszak kialakításában. , ahogy azt állította, hogy az új halommal beszéltünk: „Nem mutattunk be hitközösségként a szociális hálózat korszakában. Mertesítő a „jó” AI-hez: A virágzó AI-benchmark

A virágzó AI (FAI) referenciaérték, amelyet hivatalosan július 10-én indítottak, szándékos elfordulást jelent a hagyományos AI értékelésből. Közvetlenül szembesül a jelenlegi biztonsági kutatás jelentős különbségével. Ahogy a Gloo hivatalos bejelentése államok , „A jelenlegi AI igazítási kutatás elsősorban a káros megelőzésre összpontosít, nem pedig az emberi jólét aktív promóciójára.” href=”https://gloo.com/flourishing-hub/research”cél=”_ üres”> A Harvard és a Baylor Egyetemek kutatói közös erőfeszítései . A Gloo ezt a munkát hét alapdimenzióra bővítette: karakter és erény, szoros társadalmi kapcsolatok, mentális és fizikai egészség, pénzügyi és anyagi stabilitás, boldogság és élettartam-elégedettség, jelentés és cél, valamint egy új kategória a hit és a lelkiség számára. RIGOR . 1,229 szakértővel kurátoros kérdésből álló adatkészletet használ, és alapvetően geometriai átlaggal kiszámítja a pontszámokat. Ez a statisztikai megközelítés bünteti a modelleket a rossz teljesítményért egyetlen dimenzióban, biztosítva, hogy nem tudják elfedni a hiányosságokat olyan területeken, mint a „jelentés”, a „pénzügy” kitűnője révén. Először is, a modelleknek ténylegesen pontosaknak kell lenniük az információk bemutatásakor. Másodszor, ajánlásaikat az emberi virágzásról szóló tudományos kutatásokkal kell alátámasztani. Végül, minden területen következetesen elő kell mozdítaniuk a jólétet, függetlenül a jelen témától. Ezeket különféle forrásokból vették, ideértve a megalapozott referenciaértékeket, például az MMLU-t, a szakmai vizsgákat, az akadémiai dokumentumokat és a szakértők által generált új forgatókönyveket ezen értékek valós alkalmazásának tesztelésére. Ezek a bírók nemcsak az elsődleges dimenzióra, hanem a tangenciálisra is értékelik a válaszokat. Például egy pénzügyi kérdést is lehet pontozni a „karakter” vagy a „jelentés” rubrikával való igazításáért is, biztosítva a holisztikus értékelést. „De nemcsak helyes vagy rossz. Jó-e? Ha a modellek emberszerű módon reagálnak, akkor… az embereket jobbnak kell lenniük. képességek. Míg az Openai O3 modellje elérte a legmagasabb 72-es pontszámot, amelyet a Gemini 2.5 Flash gondolkodás (68) és a Grok 3 (67) követ, egyetlen modell sem haladta meg a 90 pontos küszöböt, amelyet az FAI-csapat határozottan igazít az emberi virágzáshoz. A „pénzügyek” kategóriában szereplő összes modell átlagos pontszáma tiszteletreméltó 81%volt. Éles ellentétben a „hit” dimenzió átlaga mindössze 35%volt, kiemelve, amit Gloo „kritikus hiánynak” hív. Az összes modell és mind a hét dimenzió teljes átlagos teljesítménye mindössze 60%volt. 87%-os kiemelkedő pontszámot ért el a „karakterben”, ami messze meghaladta a riválisait. Ugyanakkor még a vezető is viszonylag alacsony 43%-ot szerzett a „hitben”, hangsúlyozva ennek a kihívásnak az egyetemes természetét. Az Antropic’s Claude 3.7 szonett, miközben az összességében 65%-os ponttal alacsonyabb szintre helyezkedik el, megkülönböztette magát azáltal, hogy a „jelentés” kategóriában a legmagasabb pontszámot 67%-ra juttatja, ami arra utal, hogy képzésének eltérő filozófiai igazítása lehet. A legjobban teljesítő nyílt forráskódú modell, a DeepSeek-R1, összességében lenyűgöző 65%-ot szerzett, a Claude 3.7 szonettjével és a több fő zárt modell felülmúlásával. Különös erősséget mutatott a „kapcsolatok” (74%) és a „hit” (40%) területén, így rendkívül versenyképessé tette a legmagasabb szintű védett rendszereket az adott területeken. Teljesítménye kiegyensúlyozott volt, de egyetlen kategóriában sem vezette, jelezve az általánosabb képességet, anélkül, hogy egyes versenytársakban láttak. Ezek a szemcsés eredmények azt mutatják, hogy a FAI benchmark hasznossága az egyetlen pontszámon túllép, hogy felfedje a különböző AI rendszerek egyedi érték-alapú „személyiségeit”. src=”adatok: image/svg+xml; nitro-üres-id=mty1mtoxoda0-1; base64, phn2zyb2awv3qm94psiwidagotu5idczoc IGD2LKDGG9IJK1OSIGAGVPZ2H0PSI3MZGIIHHTBG5ZPSJODHRWOI8VD3D3D3LNCZLM9YZY8YMDAWL3N2ZYI+PC9ZDMC+”>

Pat Gelsinger közvetlenül kommentálta az eredményeket, megjegyezve a modellek éretlenségét a kulcsfontosságú területeken.”A területek többsége, mint a karakter, a boldogság, a kapcsolatok-még nem olyan jók. Úgy értem, látjuk ezeket az eredményeket az 50-es években. A hit, a 30-as és 40-es években pontszámokat látunk”-, ő

Az Intel volt vezérigazgatója, Pat Gelsinger bemutatja az AI benchmarkot, hogy mérje az „emberi virágzás” igazítását

Published by All Things Windows on July 11, 2025

IT Info

A Google 2,4 milliárd dolláros Windsurf-ügylete az Openai összeomlást követte a Microsoft IP Veto felett

IT Info

A Windows 11 bennfentes előnézet Build 27898 (Canary Channel) tálcás ikon méretezést, gyorsgép-helyreállítást és még sok mást hoz

IT Info

A Meta megvásárolja a hangot ai startup playai-t, folytatva az AI Takeover vázlatát

Az Intel volt vezérigazgatója, Pat Gelsinger bemutatja az AI benchmarkot, hogy mérje az „emberi virágzás” igazítását

Published by All Things Windows on July 11, 2025

Related Posts

IT Info

A Google 2,4 milliárd dolláros Windsurf-ügylete az Openai összeomlást követte a Microsoft IP Veto felett

IT Info

A Windows 11 bennfentes előnézet Build 27898 (Canary Channel) tálcás ikon méretezést, gyorsgép-helyreállítást és még sok mást hoz

IT Info

A Meta megvásárolja a hangot ai startup playai-t, folytatva az AI Takeover vázlatát