la șapte luni de la plecarea lui Intel, fostul CEO Pat Gelsinger a dezvăluit joi un nou punct de referință conceput pentru a măsura dacă AI este cu adevărat bun pentru oameni. Prin noul său rol la firma „Faith Tech” Gloo, Gelsinger a lansat AI înfloritor (FAI) de referință , un cadru care evaluează modele nu pe performanțe tehnice, ci pe alignarea lor cu șapte ani. Dimensiuni, inclusiv caracter, relații și credință, care vizează schimbarea atenției industriei de a împiedica pur și simplu daunele creării active a AI care contribuie pozitiv la viața umană. Mișcarea poziționează Gelsinger ca o voce cheie în dezbaterea din ce în ce mai mare cu privire la etica și valorile AI.

de la CEO-ul Intel la Eticistul AI: noua misiune a lui Gelsinger

după ce a renunțat la faptul că șeful executiv al Intel a început în decembrie 2024, în cadrul presiunilor financiare și competitive semnificative, Pat Gelsinger a început la un nou capitol. El a descris tranziția sa într-un interviu recent, afirmând: „Post Intel, ce fac în continuare? Și știi, pentru asta, am scos o pălărie 7/24 și am pus două pălării. src=”date: imagine/svg+xml; nitro-go-id=mty0nzoymjy3-1; base64, phn2zyb2awv3qm94psiwidagmtiznia4mj giihdpzhropsixmjm2iibozwlnahq9ijgyocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Una dintre aceste pălării implică investiții tehnologice profunde la Playground Global. Celălalt este rolul său de președinte executiv și șef de tehnologie la Gloo, o companie pe care a investit-o pentru prima dată în urmă cu un deceniu. Această mișcare reflectă o pasiune de lungă durată pentru intersecția dintre credință și tehnologie, determinată de dorința de a asigura comunitățile bazate pe valori au o voce în modelarea erei AI. Așa cum a spus-o vorbind cu noua stivă, „Nu am apărut ca o comunitate de credință în epoca rețelelor sociale. Noul șantier pentru AI „bun”: înfloritorul AI Benchmark

Benchmark-ul înfloritor AI (FAI), lansat oficial pe 10 iulie, reprezintă un pivot deliberat din evaluarea tradițională AI. Se confruntă direct cu un decalaj major în cercetarea actuală a siguranței. În calitate de anunț oficial al lui GLOO state , „Cercetarea actuală de aliniere AI se concentrează predominant pe prevenirea daunelor, mai degrabă decât pe promovarea activă a bunăstării umane. href=”https://gloo.com/flourishing-hub/research”target=”_ blank”> efort comun al cercetătorilor de la Universitățile Harvard și Baylor . GLOO a extins această lucrare în șapte dimensiuni de bază: caracter și virtute, relații sociale apropiate, sănătate mentală și fizică, stabilitate financiară și materială, fericire și satisfacție, sens și scop de viață și o nouă categorie pentru credință și spiritualitate.

Metodologia Benchmark’s Benchmark. Rigor . Utilizează un set de date de 1.229 de întrebări curate de experți și, în mod crucial, calculează scorurile folosind o medie geometrică. Această abordare statistică penalizează modelele pentru performanțe slabe într-o singură dimensiune, asigurându-se că nu pot masca deficiențele în domenii precum „sensul” prin excelarea în „Finanțe”.

Întregul cadru se bazează pe trei principii fundamentale prezentate de GLOO. În primul rând, modelele trebuie să fie corecte de fapt atunci când prezentați informații. În al doilea rând, recomandările lor ar trebui să fie susținute de cercetările științifice privind înflorirea umană. În cele din urmă, ei trebuie să promoveze bunăstarea în mod constant pe toate domeniile, indiferent de subiectul specific la îndemână.

Setul de întrebări în sine este un amestec de întrebări obiective, cu alegere multiplă și scenarii subiective, bazate pe judecată. Acestea au fost extrase din surse diverse, inclusiv de referințe consacrate precum MMLU, examene profesionale, lucrări academice și noi scenarii generate de experți pentru a testa aplicarea reală a acestor valori.

pentru a evalua răspunsurile subiective, FAI angajează multiple „judecător” LLMS alocat experți experți. Acești judecători evaluează răspunsurile nu numai pe dimensiunea primară, ci și pe cele tangențiale. De exemplu, o întrebare financiară ar putea fi, de asemenea, notată pentru alinierea sa cu rubricile „personajului” sau „sensul”, asigurând o evaluare holistică.

Gelsinger susține că, dacă sistemele AI vor acționa ca consilieri de viață, programarea lor de bază trebuie evaluată pentru mai mult decât o exactitate fapte. „Dar nu este doar corect sau greșit. Este bine? Dacă modelele răspund în moduri asemănătoare omului, atunci ar trebui să conducă oamenii„ să fie mai buni “. În timp ce modelul O3 al lui OpenAI a obținut cel mai mare scor general de 72, urmat de GEMINI 2.5 Flash Thinking (68) și Grok 3 (67), niciun model nu a depășit pragul de 90 de puncte pe care echipa FAI îl definește ca fiind aliniat robust cu înflorirea umană. Scorul mediu pe toate modelele din categoria „finanțe” a fost respectabil de 81%. În contrast puternic, media pentru dimensiunea „credinței” a fost de doar 35%, subliniind ceea ce GLOO numește un „deficit critic”. Performanța medie generală pe toate modelele și toate cele șapte dimensiuni a fost de doar 60%.

O privire mai atentă asupra datelor arată că O3 O3 nu a câștigat doar în general; Acesta a obținut un scor deosebit de 87% în „personaj”, depășind cu mult rivalii săi. Cu toate acestea, chiar și liderul a marcat un 43% relativ scăzut în „credință”, subliniind natura universală a acestei provocări. Sonetul Claude 3.7 al lui Anthropic, în timp ce a mai scăzut în general cu un scor de 65%, s-a distins prin obținerea scorului de top în categoria „sens” la 67%, ceea ce sugerează că antrenamentul său poate avea un aliniere filozofică diferită.

referința de referință evidențiază, de asemenea, un decalaj clar de performanță între modelele proprii și open-source. Modelul open-source de top, DeepSeek-R1, a obținut un impresionant de 65% în general, legând cu sonet Claude 3.7 și depășind mai multe modele majore închise. Acesta a arătat o putere deosebită în „relații” (74%) și „credință” (40%), ceea ce a făcut-o extrem de competitivă cu sistemele proprii de nivel superior din aceste domenii specifice.

În schimb, noul model „Open-Source” al lui Meta a aterizat în mijlocul pachetului cu un scor general de 59%. Performanța sa a fost echilibrată, dar nu a condus într-o singură categorie, ceea ce indică o capacitate mai generalizată, fără punctele forte de specialitate văzute la unii concurenți. Aceste rezultate granulare demonstrează utilitatea FAI Benchmark în a trece dincolo de un singur scor pentru a dezvălui „personalitățile” unice bazate pe valoare ale diferitelor sisteme AI.

Pat Gelsinger a comentat direct rezultatele, remarcând imaturitatea modelelor în zonele cheie.”Majoritatea zonelor, cum ar fi caracterul, fericirea, relațiile-încă nu sunt atât de bune. Adică, vedem aceste scoruri în anii 50. Cei credincioși, vedem scoruri în anii 30 și 40″, el”el

Categories: IT Info