Shtatë muaj pasi u largua nga Intel, ish-CEO Pat Gelsinger të enjten zbuloi një pikë referimi të ri të krijuar për të matur nëse AI është me të vërtetë i mirë për njerëzit. Përmes rolit të tij të ri në firmën”Besimi Tech”Gloo, Gelsinger nisi Dimensionet, përfshirë karakterin, marrëdhëniet dhe besimin, duke synuar të zhvendosin përqendrimin e industrisë duke parandaluar thjesht dëmin në krijimin në mënyrë aktive të AI që kontribuon pozitivisht në jetën e njeriut. Masa pozicionon Gelsinger si një zë kryesor në debatin në rritje mbi etikën dhe vlerat e AI. Ai e përshkroi tranzicionin e tij në një intervistë të fundit, duke thënë,”Post Intel, çfarë të bëj më tej? Dhe ju e dini, për këtë, unë kam hequr një kapelë 7/24 dhe kam vënë në dy kapele.”src=”të dhëna: imazh/svg+xml; nitro-impty-id=mty0nzoymjy3-1; base64, phn2zywv3qm94psiwidagmtiznia4mj giihdpzhropsixmjm2iiBozwlnAHq9iJgyOCigEG1Sbnm9imH0dha6ly93d3cudzmUB3jnlziwmdavc3znij48l3n2zz4=”>
Një nga ato kapele përfshin investime të thella të teknologjisë në shesh lojërash Global. Tjetri është roli i tij si kryetar ekzekutiv dhe drejtues i teknologjisë në Gloo, një kompani që ai investoi për herë të parë në një dekadë më parë. Kjo veprim pasqyron një pasion të gjatë për kryqëzimin e besimit dhe teknologjisë, i nxitur nga një dëshirë për të siguruar që komunitetet e bazuara në vlera të kenë një zë në formimin e epokës së AI. ndërsa ai e vendosi atë duke biseduar me pirgun e ri,”Ne nuk u shfaqëm si një komunitet besimi në epokën e rrjeteve sociale. Ne do të paraqitemi në AI.”
Një karakteristikë e re për ‘Good’ AI: Benchmark AI që lulëzon
Benchmark i lulëzimit AI (FAI), i filluar zyrtarisht në 10 korrik, paraqet një strumbullar të qëllimshëm nga vlerësimi tradicional i AI. Ajo përballet drejtpërdrejt me një hendek të madh në hulumtimin aktual të sigurisë. Ndërsa njoftimi zyrtar i Gloo-s ,”Hulumtimi aktual i shtrirjes së AI-së përqendrohet kryesisht në parandalimin e dëmit në vend se promovimi aktiv i mirëqenies njerëzore.”href=”https://gloo.com/flourishing-hub/research”target=”_ bosh”> përpjekje e përbashkët nga studiuesit në universitetet e Harvardit dhe Baylor . Gloo e zgjeroi këtë vepër në shtatë dimensione thelbësore: Karakteri dhe virtyti, marrëdhëniet e ngushta shoqërore, shëndeti mendor dhe fizik, stabiliteti financiar dhe material, lumturia dhe kënaqësia e jetës, kuptimi dhe qëllimi, dhe një kategori e re për besim dhe shpirtërore. rigorozitet . Ai përdor një bazë të dhënash prej 1,229 pyetjesh të kuruara nga ekspertët dhe, në mënyrë thelbësore, llogarit rezultatet duke përdorur një mesatare gjeometrike. Kjo qasje statistikore penalizon modele për performancën e dobët në çdo dimension të vetëm, duke siguruar që ata nuk mund të maskojnë mangësi në fusha si”kuptimi”duke shkëlqyer në”financa”. Së pari, modelet duhet të jenë faktikisht të sakta kur paraqesin informacione. Së dyti, rekomandimet e tyre duhet të mbështeten nga hulumtimi shkencor mbi lulëzimin e njeriut. Më në fund, ata duhet të promovojnë mirëqenien në mënyrë të vazhdueshme në të gjitha fushat, pavarësisht nga tema specifike në fjalë. Këto u tërhoqën nga burime të ndryshme, duke përfshirë standardet e vendosura si MMLU, provimet profesionale, letrat akademike dhe skenarët e rinj të gjeneruar nga ekspertë për të provuar aplikimin e botës reale të këtyre vlerave. Këta gjyqtarë vlerësojnë përgjigjet jo vetëm në dimensionin parësor, por edhe në ato tangjenciale. Për shembull, një pyetje financiare mund të shënohet gjithashtu për përafrimin e saj me rubrikat ‘karakter’ ose ‘kuptim’, duke siguruar një vlerësim gjithëpërfshirës.”Por nuk është thjesht të jesh i drejtë apo i gabuar. A është mirë? Nëse modelet po reagojnë në mënyra të ngjashme me njeriun, atëherë… ata duhet t’i çojnë njerëzit‘ të jenë më të mirë.'”Ky oborr i ri është përgjigjja e tij për atë sfidë. aftësitë. Ndërsa modeli O3 i Openai arriti rezultatin më të lartë të përgjithshëm prej 72, i ndjekur nga Gemini 2.5 Flash Thinking (68) dhe GROK 3 (67), asnjë model nuk e tejkaloi pragun e 90 pikave që ekipi FAI i përcakton si të lidhur me forcë me lulëzimin e njeriut. Rezultati mesatar në të gjitha modelet në kategorinë ‘Financat’ ishte një 81%i respektueshëm. Në kontrast të ashpër, mesatarja për dimensionin ‘besim’ ishte vetëm 35%, duke theksuar atë që Gloo e quan një”deficit kritik”. Performanca e përgjithshme mesatare në të gjitha modelet dhe të gjitha shtatë dimensionet ishte vetëm 60%. Ajo arriti një rezultat të qëndrueshëm prej 87% në ‘karakter’, duke tejkaluar shumë rivalët e saj. Sidoqoftë, edhe udhëheqësi shënoi një 43% relativisht të ulët në”besim”, duke nënvizuar natyrën universale të kësaj sfide. Sonet Claude 3.7 i Antropic, ndërsa vendoset në përgjithësi më të ulët me një rezultat prej 65%, u dallua vetë duke fituar rezultatin më të lartë në kategorinë”kuptim”në 67%, duke sugjeruar që trajnimi i tij mund të ketë një shtrirje të ndryshme filozofike. Modeli më i lartë me burim të hapur, Deepseek-R1, shënoi një mbresëlënës 65% në përgjithësi, duke u lidhur me Sonet Claude 3.7 dhe duke tejkaluar disa modele të mëdha të mbyllura. Ajo tregoi forcë të veçantë në”marrëdhënie”(74%) dhe”besim”(40%), duke e bërë atë shumë konkurrues me sistemet e pronarit të nivelit të lartë në ato fusha specifike. Performanca e saj ishte e ekuilibruar, por nuk çoi në asnjë kategori të vetme, duke treguar një aftësi më të përgjithësuar pa pikat e forta të specializuara që shihen në disa konkurrentë. Këto rezultate kokrrizore demonstrojnë shërbimin e Benchmark-ut të FAI për të lëvizur përtej një rezultati të vetëm për të zbuluar”personalitetet”unike të bazuara në vlera të sistemeve të ndryshme AI. src=”të dhëna: imazh/svg+xml; nitro-empty-id=mty1mtoxoda0-1; base64, phn2zyb2awv3qm94psiwidagotu5idczoc Igd2lkdgg9ijk1osigagvpz2h0psi3mzgiihhtbg5zpsjodhrwoi8vd3d3lnczlm9yzy8ymdawl3n2zyi+pc9zdmc+”>
Pat Gelsinger komentoi drejtpërdrejt mbi rezultatet, duke përmendur papjekurinë e modeleve në fushat kryesore.”Shumica e zonave, si personazhi, lumturia, marrëdhëniet-ato nuk janë aq të mira. Dua të them, ne po i shohim ato rezultate në vitet 50.