Seitsemän kuukauden kuluttua Intelistä, entinen toimitusjohtaja Pat Gelsinger julkisti torstaina uuden vertailukohdan, jonka tarkoituksena on mitata, onko AI todella hyvä ihmisille. Uuden roolinsa kautta Faith Tech”-yrityksessä Gloossa Gelsinger käynnisti kukoistaa AI (FAI)-vertailuarvo , kehys, joka arvioi malleja, jotka eivät ole teknisiä suorituskykyään, mutta heidän kohdistuksensa kanssa. Myöntää tappion NVIDIA: lle, julistaa”Emme ole kymmenen parhaan joukossa”upeassa todellisuuden tarkistuksessa

Tämä uusi testi arvioi malleja seitsemässä keskeisellä ulottuvuudella, mukaan lukien luonne, suhteet ja usko, jonka tavoitteena on muuttaa teollisuuden keskittymistä yksinkertaisesti haittaa aktiivisesti AI: n luomiseen, jotka vaikuttavat positiivisesti ihmisen elämään. Muutto asettaa Gelsingerin avainääneenä kasvavassa keskustelussa AI-etiikasta ja arvoista. src=”data: kuva/svg+xml; nitro-tyhjennys-id=mty0otoymjy3-1; base64, phn2zyb2awv3qm94psiwidagmtiznia4mj giIHdpZHRoPSIxMjM2IiBoZWlnaHQ9IjgyOCIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj48L3N2Zz4=”>

Intelin toimitusjohtajalta AI-eettiseen: Gelsingerin uusi tehtävä

sen jälkeen kun Intelin toimitusjohtajana oli erottuva joulukuussa 2024 merkittävien taloudellisten ja kilpailupaineiden keskellä, Pat Gelsinger on aloittanut uuden luvun. Hän kuvasi hänen siirtymistä äskettäisessä haastattelussa, jossa todettiin: “Post Intel, mitä teen seuraavaksi? Ja tiedät, että olen ottanut pois yhden 7/24 hatun ja laittanut kaksi hattua.”Toinen on hänen roolinsa toimitusjohtajana ja tekniikan päällikkönä Gloon, yrityksen, jonka hän sijoitti ensimmäisen kerran kymmenen vuotta sitten. Tämä siirto heijastaa pitkäaikaisen intohimon uskon ja tekniikan leikkauspisteeseen, jota ohjaa halu varmistaa, että arvopohjaiset yhteisöt ovat ääni AI-aikakauden muotoilussa. , kun hän sanoi Puhuessaan uuden pinon kanssa,”emme osoittaneet uskoyhteisöä sosiaalisen verkostoitumisen aikakaudella. Yardstick’hyvälle’AI: lle: kukoistava AI-vertailuarvo

10. heinäkuuta virallisesti käynnistetty kukoistava AI (FAI)-vertailu edustaa tarkoituksellista kääntöä perinteisestä AI-arvioinnista. Se kohtaa suoraan suuren aukon nykyisessä turvallisuustutkimuksessa. Koska Gloon virallinen ilmoitus valtiot , “Nykyinen AI-kohdistustutkimus keskittyy pääasiassa haittojen ehkäisyyn kuin ihmisen hyvinvoinnin aktiiviseen edistämiseen.”href=”https://gloo.com/flourishing-hub/research”Target=”_ tyhjä”> Harvardin ja Baylorin yliopistojen tutkijoiden yhteiset ponnistelut . Gloo laajensi tätä työtä seitsemäksi ydinulottuvuuteen: luonne ja hyve, läheiset sosiaaliset suhteet, henkisen ja fyysisen terveyden, taloudellisen ja aineellisen vakauden, onnellisuuden ja elämäntyytyväisyyden, merkityksen ja tarkoituksen sekä uuden uskon ja henkisyyden luokan.

. Se käyttää 1 229 asiantuntija-kuratoitua kysymystä koskevaa tietojoukkoa ja laskee ratkaisut tärkeänä geometrisen keskiarvon avulla. Tämä tilastollinen lähestymistapa rankaisee malleja huonosta suorituskyvystä missä tahansa yksittäisessä ulottuvuudessa, varmistaen, että ne eivät voi peittää puutteita sellaisilla alueilla, kuten’merkitys’, huippuosaamisella”rahoituksessa”.

Koko kehys perustuu kolmeen Gloon esittämän perusperiaatteen perusteella. Ensinnäkin mallien on oltava tosiasiallisesti tarkkoja esitettäessä tietoa. Toiseksi heidän suosituksiaan olisi tuettava tieteellisellä tutkimuksella ihmisen kukoistusta. Lopuksi, niiden on edistettävä hyvinvointia johdonmukaisesti kaikilla alueilla riippumatta käsillä olevasta aiheesta.

Kysymys itsessään on sekoitus objektiivisia, monivalintakysymyksiä ja subjektiivisia, harkintapohjaisia ​​skenaarioita. Ne on vedetty erilaisista lähteistä, mukaan lukien vakiintuneet vertailuarvot, kuten MMLU, ammatilliset kokeet, akateemiset lehdet ja asiantuntijoiden luomat uudet skenaariot näiden arvojen reaalimaailman soveltamiseksi. Nämä tuomarit arvioivat vastauksia paitsi ensisijaiseen ulottuvuuteen myös tangentiaalisiin. Esimerkiksi taloudellinen kysymys voidaan myös pisteyttää sen yhdenmukaistamiseksi’hahmon’tai’merkityksen’rubrikien kanssa, varmistamalla kokonaisvaltainen arviointi.”Mutta se ei ole vain oikeassa tai väärin. Onko se hyvä? Jos mallit vastaavat ihmisen kaltaisilla tavoilla, niin… heidän pitäisi johtaa ihmisiä”olemaan parempia”.””Tämä uusi yardick on hänen vastauksensa kyseiseen haasteeseen.

Ensimmäinen raporttikortti: Top-mallit excel at Finance, Fail at Faith

alkuperäiset tulokset heidän systemaattisesta arvioinnista 28: n johtavien AI-mallejen paljastamisessa A ominaisuudet. Vaikka Openain O3-malli saavutti korkeimman kokonaispistemäärän 72, jota seurasi Gemini 2.5 Flash-ajattelu (68) ja GROK 3 (67), mikään malli ei ylittänyt 90-pisteisen kynnyksen, jonka FAI-tiimi määrittelee ihmisen kukoistamisen keskenään. Keskimääräinen pistemäärä kaikissa’talous’-kategorian malleista oli kunnioitettava 81%. Sarjaan vastakohtana’uskon’ulottuvuuden keskiarvo oli vain 35%, mikä korosti sitä, mitä Gloo kutsuu “kriittiseksi alijäämäksi”. Kaikissa malleissa ja kaikissa seitsemässä mitoissa oli keskimääräinen suorituskyky vain 60%. Se saavutti standout-pistemäärän 87%”hahmossa”ylittäen sen kilpailijat huomattavasti. Jopa johtaja teki kuitenkin suhteellisen alhaisen 43%: n”uskossa”korostaen tämän haasteen universaalia luonnetta. Antropisin Claude 3.7 Sonet, kun taas alhaisempi pisteet 65%, erottui ansaitsemalla”merkitys”-luokan ylimmät pistemäärät 67%: lla, mikä viittaa siihen, että sen koulutuksessa voi olla erilainen filosofinen kohdistus. Huipputekninen avoimen lähdekoodin malli, DeepSeek-R1, teki kokonaisuuden vaikuttavan 65%, sitoutuen Claude 3.7-sonetin kanssa ja ylittää useita suuria suljettuja malleja. Se osoitti erityistä vahvuutta’suhteissa'(74%) ja’uskossa'(40%), mikä teki siitä erittäin kilpailukykyisen ylimmän tason omistusjärjestelmien kanssa näillä erityisillä alueilla.

Sitä vastoin Meta: n uusi Llaama 4 Maverick “avoimen lähteen” malli, joka oli laskeutunut pakkauksen keskelle 59%: n kokonaispisteellä. Sen suorituskyky oli tasapainossa, mutta se ei johtanut mihinkään yhtenä luokkaan, mikä osoittaa yleisempiä kykyjä ilman eräissä kilpailijoilla nähtyjä erikoistuneita vahvuuksia. Nämä rakeiset tulokset osoittavat FAI-vertailukohdan hyödyllisyyden siirtyessään yhden pistemäärän ulkopuolelle paljastaakseen eri AI-järjestelmien ainutlaatuiset arvopohjaiset “persoonallisuudet”. src=”data: kuva/svg+xml; nitro-tyhjennys-id=mty1mzoxoda0-1; base64, phn2zyb2awv3qm94psiwidagotu5idczoc Igd2lkdgg9ijk1osigagvpz2h0psi3mzgiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>

Pat Gelsinger kommentoi suoraan tuloksia ja huomautti mallien kypsyyden avainalueilla.”Suurin osa alueista, kuten luonne, onnellisuus, suhteet-ne eivät ole vielä niin hyviä. Tarkoitan, että näemme nämä tulokset 50-luvulla. Uskon, näemme tulokset 30-ja 40-luvuilla”, hän