Sette mesi dopo la partenza Intel, l’ex CEO Pat Gelsinger giovedì ha presentato un nuovo punto di riferimento progettato per misurare se l’IA è veramente buona per le persone. Attraverso il suo nuovo ruolo nell’azienda”Faith Tech”, Gloo, Gelsinger ha lanciato il fiorente AI (FAI) Benchmark Le dimensioni, tra cui carattere, relazioni e fede, mirano a spostare l’attenzione del settore dalla semplice prevenzione del danno alla creazione attiva dell’IA che contribuisce positivamente alla vita umana. La mossa posiziona Gelsinger come una voce chiave nel crescente dibattito sull’etica e sui valori di intelligenza artificiale.

Dal CEO di Intel all’eticista di AI: la nuova missione di Gelsinger

Dopo essersi dimesso come amministratore delegato di Intel nel dicembre 2024 in mezzo a significative pressioni finanziarie e competitive, Pat Gelsinger si è svolta in un nuovo capitolo. Ha descritto la sua transizione in una recente intervista, affermando:”Post Intel, cosa devo fare dopo? E sai, per questo, ho tolto un cappello da 7/24 e messo su due cappelli.”

Uno di questi cappelli coinvolge investimenti in deep tecnologica al Playground Global. L’altro è il suo ruolo di presidente esecutivo e capo della tecnologia di Gloo, una società che ha investito per la prima volta in un decennio fa. Questa mossa riflette una passione di lunga data per l’intersezione tra fede e tecnologia, guidata dal desiderio di garantire che le comunità basate sui valori abbiano una voce nel modellare l’era dell’IA. come ha detto Parlando con il nuovo stack,”Non ci siamo presentati come una comunità di fede nel social network. Yardstick for”Good”AI: il fiorente benchmark AI

Il fiorente punto di riferimento AI (FAI), lanciato ufficialmente il 10 luglio, rappresenta un perno deliberato dalla tradizionale valutazione dell’intelligenza artificiale. Affronta direttamente un grande divario nelle attuali ricerche sulla sicurezza. Come annuncio ufficiale di Gloo Stati ,”L’attuale ricerca di allineamento dell’intelligenza artificiale si concentra prevalentemente sulla prevenzione del danno piuttosto che sulla promozione attiva di una promozione attiva. href=”https://gloo.com/flourishing-hub/research”target=”_ blank”> sforzo congiunto dei ricercatori delle università di Harvard e Baylor . Gloo ha ampliato questo lavoro in sette dimensioni fondamentali: carattere e virtù, strette relazioni sociali, salute mentale e fisica, stabilità finanziaria e materiale, felicità e soddisfazione della vita, significato e scopo e una nuova categoria per fede e spiritualità.

. Utilizza un set di dati di 1.229 domande curate da esperti e, soprattutto, calcola i punteggi utilizzando una media geometrica. Questo approccio statistico penalizza i modelli per scarse prestazioni in ogni singola dimensione, garantendo che non possono mascherare le carenze in aree come il”significato”eccellendo in”finanza”.

L’intero quadro si basa su tre principi fondamentali delineati da Gloo. Innanzitutto, i modelli devono essere fattualmente accurati quando si presentano informazioni. In secondo luogo, le loro raccomandazioni dovrebbero essere supportate dalla ricerca scientifica sulla fiorente umana. Infine, devono promuovere il benessere in modo coerente in tutti i domini, indipendentemente dall’argomento specifico a portata di mano.

Il set di domande è un mix di domande oggettive a scelta multipla e scenari soggettivi e basati sul giudizio. Questi sono stati tratti da diverse fonti, tra cui benchmark affermati come MMLU, esami professionali, documenti accademici e nuovi scenari generati da esperti per testare l’applicazione del mondo reale di questi valori.

Per valutare le risposte soggettive, il FAI impiega molteplici personaggi esperti assegnati a LLM. Questi giudici valutano le risposte non solo sulla dimensione primaria ma anche su quelle tangenziali. Ad esempio, una domanda finanziaria potrebbe anche essere valutata per il suo allineamento con le rubriche”carattere”o”significato”, garantendo una valutazione olistica.

Gelsinger sostiene che se i sistemi AI devono agire come consulenti di vita, la loro programmazione di base deve essere valutata per un solo solo accuratezza fattuale.”Ma non è solo essere giusto o sbagliato. È buono? Se i modelli stanno rispondendo in modi simili all’uomo, allora… dovrebbero portare le persone”essere migliori”.”Questo nuovo metro è la sua risposta a quella sfida.

La prima pagella di una stallone: ​​i migliori modelli di uno stallone di uno stallone di una stallone di una stallone di uno stallone. capacità. Mentre il modello O3 di Openai ha raggiunto il punteggio complessivo più alto di 72, seguito dal pensiero flash Gemini 2.5 (68) e Grok 3 (67), nessun modello ha superato la soglia di 90 punti che il team FAI definisce come robusto allineato con fiorire umani.

Il divario di prestazioni tra le dimensioni è drammatico. Il punteggio medio su tutti i modelli nella categoria”Finances”era un rispettabile 81%. In netto contrasto, la media per la dimensione della”fede”era solo il 35%, evidenziando ciò che Gloo chiama un”deficit critico”. Le prestazioni medie complessive su tutti i modelli e tutte e sette le dimensioni sono state solo del 60%.

Uno sguardo più attento ai dati mostra che O3 di Opens non ha vinto solo complessivamente; Ha ottenuto un punteggio straordinario dell’87% in”carattere”, superando di gran lunga i suoi rivali. Tuttavia, anche il leader ha segnato un 43% relativamente basso nella”fede”, sottolineando la natura universale di questa sfida. Il sonetto Claude 3.7 di Antropic, pur posizionando in basso con un punteggio del 65%, si è distinto guadagnando il punteggio più alto nella categoria”significato”al 67%, suggerendo che la sua formazione può avere un diverso allineamento filosofico.

Il punto di riferimento evidenzia anche un divario di prestazioni chiaramente tra modelli di proprietà open. Il modello open source più performanti, DeepSeek-R1, ha ottenuto un impressionante 65% complessivo, legando con Sonetto Claude 3.7 e sovraperformando diversi principali modelli chiusi. Ha mostrato una forza particolare nelle”relazioni”(74%) e”Faith”(40%), rendendolo altamente competitivo con i sistemi proprietari di alto livello in quei domini specifici.

Al contrario, il nuovo modello di”open source”di Meta, è atterrato in mezzo al pacchetto con un punteggio complessivo del 59%. Le sue prestazioni sono state bilanciate ma non hanno portato in nessuna singola categoria, indicando una capacità più generalizzata senza i punti di forza specializzati visti in alcuni concorrenti. Questi risultati granulari dimostrano l’utilità del benchmark FAI nel andare oltre un singolo punteggio per rivelare le”personalità”basate sul valore di diversi sistemi di intelligenza artificiale.

Pat Gelsinger ha commentato direttamente i risultati, notando l’immaturità dei modelli nelle aree chiave.”La maggior parte delle aree, come il personaggio, la felicità, le relazioni-non sono ancora così buone. Voglio dire, stiamo vedendo quei punteggi negli anni’50. Quelli di fede, stiamo vedendo punteggi negli anni’30 e’40”, lui lui