Tujuh bulan setelah berangkat Intel, mantan CEO Pat Gelsinger pada hari Kamis meluncurkan tolok ukur baru yang dirancang untuk mengukur jika AI benar-benar baik untuk orang. Melalui peran barunya di firma”Teknologi Iman”Gloo, Gelsinger meluncurkan Flourishing AI (FAI) Test Test , sebuah kerangka kerja yang mengevaluasi model yang tidak ada pada kinerja yang tidak ada pada manusia, tetapi pada alignmen mereka pada manusia. Dimensi, termasuk karakter, hubungan, dan iman, yang bertujuan untuk mengubah fokus industri dari hanya mencegah bahaya untuk secara aktif menciptakan AI yang berkontribusi positif terhadap kehidupan manusia. Langkah ini memposisikan Gelsinger sebagai suara kunci dalam perdebatan yang berkembang mengenai etika dan nilai-nilai AI.

dari CEO Intel ke AI ETICIS: Misi baru Gelsinger

Setelah mengundurkan diri sebagai kepala eksekutif Intel pada bulan Desember 2024 di tengah-tengah tekanan keuangan dan kompetitif, pelaging PATEW pada bulan Desember. Dia menggambarkan transisinya dalam sebuah wawancara baru-baru ini, menyatakan, “Post Intel, apa yang harus saya lakukan selanjutnya? Dan Anda tahu, untuk itu, saya telah melepas satu topi 7/24 dan memakai dua topi.”

Salah satu topi itu melibatkan investasi teknologi dalam di Playground Global. Yang lain adalah perannya sebagai Ketua Eksekutif dan Kepala Teknologi di Gloo, sebuah perusahaan yang pertama kali diinvestasikan dalam satu dekade lalu. Langkah ini mencerminkan hasrat lama untuk persimpangan iman dan teknologi, didorong oleh keinginan untuk memastikan komunitas berbasis nilai memiliki suara dalam membentuk era AI. seperti yang dia katakan berbicara ke tumpukan baru,”kami tidak muncul sebagai komunitas iman di jejaring sosial era. Yardstick for’Good’AI: Benchmark AI yang berkembang

Benchmark AI (FAI) yang berkembang, diluncurkan secara resmi pada 10 Juli, mewakili pivot yang disengaja dari evaluasi AI tradisional. Ini secara langsung menghadapi kesenjangan besar dalam penelitian keselamatan saat ini. Sebagai pengumuman resmi Gloo menyatakan ,”Penelitian Ali Ali saat ini sebagian besar berfokus pada pencegahan bahaya daripada promosi aktif pada akademik, Academic. href=”https://gloo.com/flourishing-hub/research”target=”_ blank”> upaya bersama oleh para peneliti di universitas Harvard dan Baylor . GLOO memperluas pekerjaan ini menjadi tujuh dimensi inti: karakter dan kebajikan, hubungan sosial yang erat, kesehatan mental dan fisik, stabilitas keuangan dan material, kebahagiaan dan kepuasan hidup, makna dan tujuan, dan kategori baru untuk iman dan spiritualitas.

. Ini menggunakan dataset dari 1.229 pertanyaan yang dikuratori ahli dan, yang terpenting, menghitung skor menggunakan rata-rata geometris. Pendekatan statistik ini menghukum model untuk kinerja yang buruk dalam dimensi tunggal apa pun, memastikan mereka tidak dapat menutupi kekurangan di bidang-bidang seperti’makna’dengan unggul dalam’Keuangan’.

Seluruh kerangka kerja bertumpu pada tiga prinsip dasar yang diuraikan oleh GLOO. Pertama, model harus akurat secara faktual saat menyajikan informasi. Kedua, rekomendasi mereka harus didukung oleh penelitian ilmiah tentang pertumbuhan manusia. Akhirnya, mereka harus mempromosikan kesejahteraan secara konsisten di semua domain, terlepas dari topik spesifik yang dihadapi.

Pertanyaan yang ditetapkan itu sendiri adalah campuran dari pertanyaan, pertanyaan pilihan ganda dan skenario subyektif, berbasis penilaian. Ini diambil dari beragam sumber, termasuk tolok ukur mapan seperti MMLU, ujian profesional, makalah akademik, dan skenario baru yang dihasilkan oleh para ahli untuk menguji aplikasi dunia nyata dari nilai-nilai ini.

Untuk mengevaluasi jawaban subyektif, FAI menggunakan banyak”Hakim”yang ditugaskan oleh ahli personas. Para juri ini menilai tanggapan tidak hanya pada dimensi primer tetapi juga pada yang tangensial. Misalnya, pertanyaan keuangan mungkin juga dinilai untuk penyelarasannya dengan rubrik’karakter’atau’makna’, memastikan evaluasi holistik.

Gelsinger berpendapat bahwa jika sistem AI bertindak sebagai penasihat kehidupan, pemrograman inti mereka harus dievaluasi untuk lebih dari sekadar akurasi faktual. “But it isn’t just being right or wrong. Is it being good? If the models are responding in human-like ways, then… they should lead people ‘to be better.'”This new yardstick is his answer to that challenge.

The First Report Card: Top Models Excel at Finance, Fail at Faith

Initial results from a systematic evaluation of 28 leading AI models reveal a stark imbalance in their kemampuan. Sementara model O3 Openai mencapai skor keseluruhan tertinggi dari 72, diikuti oleh Gemini 2.5 Flash Thinking (68) dan Grok 3 (67), tidak ada model yang melampaui ambang 90 poin yang didefinisikan oleh tim FAI yang kuat dengan perkembangan manusia.

Kinerja antara dimensi adalah dramatis. Dimensi wisatawan adalah dimensi. Dimensi. Dimensi. Dimensi adalah dramatis. Dimensi. Dimensi. Dimensi. Dimensi. Dimensi. Dimensi. Dimensi adalah dramatis. Skor rata-rata di semua model dalam kategori’keuangan’adalah 81%terhormat. Sebaliknya, rata-rata untuk dimensi’iman’adalah hanya 35%, menyoroti apa yang disebut GLOO sebagai”defisit kritis.”Kinerja rata-rata keseluruhan di semua model dan ketujuh dimensi hanya 60%.

Melihat lebih dekat pada data menunjukkan Openai O3 tidak hanya menang secara keseluruhan; Ini mencapai skor menonjol 87% dalam’karakter’, jauh melampaui saingannya. Namun, bahkan pemimpin mencetak 43% yang relatif rendah dalam’iman’, menggarisbawahi sifat universal dari tantangan ini. Soneta Claude 3.7 Anthropic, sementara menempatkan keseluruhan lebih rendah dengan skor 65%, membedakan dirinya dengan mendapatkan skor tertinggi dalam kategori’makna’pada 67%, menunjukkan pelatihannya mungkin memiliki perataan filosofis yang berbeda.

Benchmark juga menyoroti kesenjangan kinerja yang jelas antara model proprietary dan open-soource. Model open-source berkinerja terbaik, Deepseek-R1, mencetak keseluruhan 65% yang mengesankan, mengikat dengan Claude 3.7 soneta dan mengungguli beberapa model tertutup utama. Ini menunjukkan kekuatan khusus dalam’hubungan'(74%) dan’iman'(40%), menjadikannya sangat kompetitif dengan sistem kepemilikan tingkat atas di domain spesifik tersebut.

Sebaliknya, model”open-source”Llama 4 Maverick, mendarat di tengah paket dengan skor keseluruhan 59%. Kinerja seimbang tetapi tidak memimpin dalam kategori tunggal, menunjukkan kemampuan yang lebih umum tanpa kekuatan khusus yang terlihat pada beberapa pesaing. Hasil granular ini menunjukkan utilitas tolok ukur FAI dalam bergerak melampaui skor tunggal untuk mengungkapkan”kepribadian”berbasis nilai yang unik dari sistem AI yang berbeda.

Pat Gelsinger mengomentari langsung hasilnya, mencatat ketidakdewasaan model di bidang-bidang utama.”Sebagian besar bidang, seperti karakter, kebahagiaan, hubungan-mereka belum sebagus itu. Maksudku, kita melihat skor itu di tahun 50-an. Yang iman, kita melihat skor di tahun 30-an dan 40-an,”dia