Tujuh bulan selepas berlepas Intel, bekas Ketua Pegawai Eksekutif Pat Gelsinger pada hari Khamis melancarkan penanda aras baru yang direka untuk mengukur jika AI benar-benar baik untuk orang ramai. Melalui peranan barunya di firma”iman berteknologi”, Gelsinger melancarkan Bencana AI (FAI) Tujuh dimensi utama, termasuk watak, hubungan, dan iman, yang bertujuan untuk mengalihkan tumpuan industri daripada hanya mencegah kemudaratan untuk secara aktif mewujudkan AI yang menyumbang secara positif kepada kehidupan manusia. Posisi langkah Gelsinger sebagai suara utama dalam perdebatan yang semakin meningkat mengenai etika dan nilai AI. Dia menyifatkan peralihannya dalam wawancara baru-baru ini, menyatakan,”Post Intel, apa yang saya lakukan seterusnya? Dan anda tahu, untuk itu, saya telah mengambil satu topi 7/24 dan memakai dua topi.”Src=”Data: Image/Svg+Xml; Nitro-emphy-id=mty0nzoymjy3-1; base64, phn2zyb2awv3qm94psiwidagmtiznia4mj giihdpzhropssixmjm2iibozwlnahq9ijgyocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
Salah satu daripada topi itu melibatkan pelaburan teknologi yang mendalam di Global Playground. Yang lain adalah peranannya sebagai Pengerusi Eksekutif dan Ketua Teknologi di Gloo, sebuah syarikat yang pertama kali melabur dalam sedekad yang lalu. Langkah ini mencerminkan keghairahan yang lama untuk persimpangan iman dan teknologi, didorong oleh keinginan untuk memastikan komuniti berasaskan nilai mempunyai suara dalam membentuk era AI. Seperti yang dia katakan Yardstick untuk’Baik’AI: Penanda aras AI yang berkembang
Penanda aras AI (FAI) yang berkembang, dilancarkan secara rasmi pada 10 Julai, mewakili pivot yang disengajakan dari penilaian AI tradisional. Ia secara langsung menghadapi jurang utama dalam penyelidikan keselamatan semasa. Sebagai pengumuman rasmi Gloo menyatakan ,”Penyelidikan penjajaran AI semasa yang memberi tumpuan kepada pencegahan kemudaratan dan bukannya promosi aktif kebajikan manusia. href=”https://gloo.com/flourishing-hub/research”target=”_ blank”> Usaha bersama oleh penyelidik di Harvard dan Baylor Universities . Gloo memperluaskan kerja ini menjadi tujuh dimensi teras: watak dan kebajikan, hubungan sosial yang rapat, kesihatan mental dan fizikal, kestabilan kewangan dan material, kebahagiaan dan kepuasan hidup, makna dan tujuan, dan kategori baru untuk iman dan kerohanian. Rigor . Ia menggunakan dataset sebanyak 1,229 soalan pakar dan, secara penting, mengira skor menggunakan min geometri. Pendekatan statistik ini menghukum model untuk prestasi buruk dalam mana-mana dimensi tunggal, memastikan mereka tidak dapat menutup kekurangan dalam bidang seperti’makna’dengan cemerlang dalam’kewangan’. Pertama, model mestilah tepat tepat apabila menyampaikan maklumat. Kedua, cadangan mereka harus disokong oleh penyelidikan saintifik mengenai berkembangnya manusia. Akhirnya, mereka mesti mempromosikan kesejahteraan secara konsisten di semua domain, tanpa mengira topik tertentu di tangan. Ini diambil dari pelbagai sumber, termasuk penanda aras yang ditubuhkan seperti MMLU, peperiksaan profesional, kertas akademik, dan senario baru yang dihasilkan oleh pakar untuk menguji penggunaan dunia sebenar nilai-nilai ini.
Hakim-hakim ini menilai tanggapan bukan sahaja pada dimensi utama tetapi juga pada tangen. Sebagai contoh, soalan kewangan mungkin juga dijaringkan untuk penjajarannya dengan rubrik’watak’atau’makna’, memastikan penilaian holistik.”Tetapi ia bukan hanya betul atau salah. keupayaan mereka. Walaupun model O3 Openai mencapai skor keseluruhan tertinggi sebanyak 72, diikuti oleh pemikiran flash Gemini 2.5 (68) dan Grok 3 (67), tiada model melepasi ambang 90 mata yang ditakrifkan oleh pasukan FAI yang ditakrifkan dengan tegas dengan tumbuh-tumbuhan manusia. Skor purata di semua model dalam kategori’kewangan’adalah 81%yang dihormati. Sebaliknya, purata untuk dimensi’iman’hanyalah 35%, menonjolkan apa yang Gloo memanggil”defisit kritikal.”Prestasi purata keseluruhan di semua model dan semua tujuh dimensi hanya 60%.
Ia mencapai skor yang menonjol sebanyak 87% dalam’watak’, jauh melampaui pesaingnya. Walau bagaimanapun, walaupun pemimpin menjaringkan 43% yang agak rendah dalam’iman’, menggariskan sifat sejagat cabaran ini. Sonnet Claude 3.7 Anthropic, sambil meletakkan keseluruhan yang lebih rendah dengan skor 65%, membezakan dirinya dengan memperoleh skor teratas dalam kategori’makna’pada 67%, menunjukkan latihannya mungkin mempunyai penjajaran falsafah yang berbeza. Model sumber terbuka yang berprestasi tinggi, DeepSeek-R1, menjaringkan 65% keseluruhan yang mengagumkan, mengikat dengan Claude 3.7 sonnet dan mengatasi beberapa model tertutup utama. Ia menunjukkan kekuatan tertentu dalam’hubungan'(74%) dan’iman'(40%), menjadikannya sangat kompetitif dengan sistem proprietari teratas dalam domain tertentu. Prestasinya seimbang tetapi tidak memimpin dalam mana-mana kategori tunggal, menunjukkan keupayaan yang lebih umum tanpa kekuatan khusus yang dilihat dalam beberapa pesaing. Hasil berbutir ini menunjukkan utiliti penanda aras FAI dalam bergerak melampaui satu skor untuk mendedahkan”personaliti”berasaskan nilai yang unik dari sistem AI yang berbeza.
Pat Gelsinger mengulas secara langsung mengenai hasilnya, dengan mencatatkan ketiadaan model dalam bidang utama.”Kebanyakan kawasan, seperti watak, kebahagiaan, hubungan-mereka tidak begitu baik. Maksud saya, kita melihat skor pada tahun 50-an.