เจ็ดเดือนหลังจากออกจาก Intel อดีต CEO Pat Gelsinger ในวันพฤหัสบดีเปิดตัวเกณฑ์มาตรฐานใหม่ที่ออกแบบมาเพื่อวัดว่า AI นั้นดีสำหรับผู้คนอย่างแท้จริงหรือไม่ ผ่านบทบาทใหม่ของเขาที่ บริษัท”ศรัทธา”Gloo, Gelsinger เปิดตัว การทำงานของ AI (fai) มิติรวมถึงตัวละครความสัมพันธ์และศรัทธาโดยมีเป้าหมายที่จะเปลี่ยนโฟกัสของอุตสาหกรรมจากการป้องกันอันตรายในการสร้าง AI อย่างแข็งขันซึ่งมีส่วนช่วยในเชิงบวกต่อชีวิตมนุษย์ การย้ายตำแหน่ง Gelsinger เป็นเสียงสำคัญในการอภิปรายที่เพิ่มขึ้นเกี่ยวกับจริยธรรมและค่านิยมของ AI

จาก Intel CEO ถึง AI Ethicist: ภารกิจใหม่ของ Gelsinger

หลังจากก้าวลงจากตำแหน่งหัวหน้าผู้บริหารของ Intel ในเดือนธันวาคม 2024 เขาอธิบายการเปลี่ยนแปลงของเขาในการสัมภาษณ์เมื่อเร็ว ๆ นี้โดยระบุว่า“ โพสต์ Intel ฉันจะทำอะไรต่อไปและคุณรู้ไหมว่าฉันถอดหมวก 7/24 หนึ่งใบแล้วใส่หมวกสองใบ”

>>

หนึ่งในหมวกเหล่านั้นเกี่ยวข้องกับการลงทุนด้านเทคโนโลยีอย่างลึกซึ้งที่ Playground Global อีกอย่างคือบทบาทของเขาในฐานะประธานบริหารและหัวหน้าฝ่ายเทคโนโลยีที่ Gloo บริษัท ที่เขาลงทุนครั้งแรกในทศวรรษที่ผ่านมา การเคลื่อนไหวครั้งนี้สะท้อนให้เห็นถึงความหลงใหลในการแยกความศรัทธาและเทคโนโลยีมายาวนานซึ่งได้รับแรงหนุนจากความปรารถนาที่จะทำให้แน่ใจว่าชุมชนที่มีค่านิยมมีเสียงในการสร้างยุค AI ในขณะที่เขาวางไว้ การพูดคุยกับสแต็คใหม่ ปทัฏฐานสำหรับ’Good’AI: เกณฑ์มาตรฐาน AI ที่เฟื่องฟู

มาตรฐาน AI (FAI) ที่เฟื่องฟูซึ่งเปิดตัวอย่างเป็นทางการเมื่อวันที่ 10 กรกฎาคมแสดงให้เห็นถึงจุดหมุนรอบตัวจากการประเมิน AI แบบดั้งเดิม มันเผชิญหน้าโดยตรงกับช่องว่างที่สำคัญในการวิจัยความปลอดภัยในปัจจุบัน ในฐานะที่เป็นประกาศอย่างเป็นทางการของ Gloo รัฐ ,”การวิจัยการจัดตำแหน่ง AI ปัจจุบันมุ่งเน้นไปที่การป้องกันอันตราย href=”https://gloo.com/flourishing-hub/research”target=”_ blank”> ความพยายามร่วมกันโดยนักวิจัยที่มหาวิทยาลัยฮาร์วาร์ดและเบย์เลอร์ GLOO ขยายงานนี้ออกเป็นเจ็ดมิติหลัก: ตัวละครและคุณธรรมความสัมพันธ์ทางสังคมอย่างใกล้ชิดสุขภาพจิตและร่างกายความมั่นคงทางการเงินและวัสดุความสุขและความพึงพอใจในชีวิตความหมายและวัตถุประสงค์และหมวดหมู่ใหม่สำหรับศรัทธาและจิตวิญญาณ

Rigor มันใช้ชุดข้อมูลของคำถามที่ได้รับการดูแลจากผู้เชี่ยวชาญ 1,229 ข้อและคำนวณคะแนนโดยใช้ค่าเฉลี่ยเรขาคณิต วิธีการทางสถิตินี้ลงโทษแบบจำลองสำหรับประสิทธิภาพที่ไม่ดีในมิติใด ๆ เพื่อให้แน่ใจว่าพวกเขาไม่สามารถปกปิดข้อบกพร่องในพื้นที่เช่น’ความหมาย’โดยยอดเยี่ยมใน’การเงิน’

กรอบทั้งหมดวางอยู่บนหลักการพื้นฐานสามประการที่ระบุโดย GLOO ขั้นแรกให้แบบจำลองต้องมีความถูกต้องตามความเป็นจริงเมื่อนำเสนอข้อมูล ประการที่สองคำแนะนำของพวกเขาควรได้รับการสนับสนุนโดยการวิจัยทางวิทยาศาสตร์เกี่ยวกับความเจริญรุ่งเรืองของมนุษย์ ในที่สุดพวกเขาจะต้องส่งเสริมความเป็นอยู่ที่ดีอย่างต่อเนื่องในทุกโดเมนโดยไม่คำนึงถึงหัวข้อเฉพาะที่อยู่ในมือ

ชุดคำถามนั้นเป็นการผสมผสานระหว่างวัตถุประสงค์คำถามแบบปรนัย สิ่งเหล่านี้ถูกดึงมาจากแหล่งข้อมูลที่หลากหลายรวมถึงเกณฑ์มาตรฐานที่จัดตั้งขึ้นเช่น MMLU, การสอบอย่างมืออาชีพ, เอกสารทางวิชาการและสถานการณ์ใหม่ที่สร้างโดยผู้เชี่ยวชาญเพื่อทดสอบการประยุกต์ใช้ความเป็นจริงของค่าเหล่านี้

เพื่อประเมินคำตอบส่วนตัว ผู้พิพากษาเหล่านี้ประเมินการตอบสนองไม่เพียง แต่ในมิติหลัก แต่ยังรวมถึงการสัมผัส ตัวอย่างเช่นคำถามทางการเงินอาจได้รับคะแนนสำหรับการจัดตำแหน่งกับรูบริก’ตัวละคร’หรือ’หมายถึง’เพื่อให้มั่นใจว่าการประเมินแบบองค์รวม

Gelsinger ให้เหตุผลว่าหากระบบ AI ทำหน้าที่เป็นที่ปรึกษาชีวิตการเขียนโปรแกรมหลักของพวกเขาจะต้องได้รับการประเมินมากกว่าความถูกต้องจริง “ แต่มันก็ไม่ถูกหรือผิดมันเป็นเรื่องดีหรือไม่ถ้าแบบจำลองตอบสนองในรูปแบบที่เหมือนมนุษย์แล้ว…พวกเขาควรนำคน ‘ให้ดีขึ้น””ปทัฏฐานใหม่นี้เป็นคำตอบของเขาสำหรับความท้าทายนั้น

บัตรรายงานแรก ความสามารถ ในขณะที่โมเดล O3 ของ Openai ได้คะแนนโดยรวมสูงสุด 72 ตามด้วย Gemini 2.5 Flash Thinking (68) และ Grok 3 (67) ไม่มีรุ่นที่เหนือกว่าเกณฑ์ 90 คะแนนที่ทีม FAI กำหนดให้สอดคล้องกับความเจริญรุ่งเรืองของมนุษย์

คะแนนเฉลี่ยในทุกรุ่นในหมวดหมู่’การเงิน’นั้นน่านับถือ 81% ในทางตรงกันข้ามโดยสิ้นเชิงค่าเฉลี่ยของมิติ’ศรัทธา’นั้นเป็นเพียง 35%โดยเน้นว่า Gloo เรียกว่า”การขาดดุลที่สำคัญ”ประสิทธิภาพโดยรวมโดยรวมในทุกรุ่นและทั้งเจ็ดมิติเป็นเพียง 60%

การดูข้อมูลอย่างใกล้ชิดแสดงให้เห็นว่า Openai O3 ไม่ได้ชนะโดยรวม มันได้คะแนนยอดเยี่ยม 87% ใน’ตัวละคร’ซึ่งเหนือกว่าคู่แข่ง อย่างไรก็ตามแม้แต่ผู้นำก็ทำคะแนนได้ค่อนข้างต่ำ 43% ใน’ศรัทธา’ซึ่งเน้นย้ำถึงธรรมชาติที่เป็นสากลของความท้าทายนี้ Claude 3.7 Sonnet ของมานุษยวิทยาในขณะที่วางโดยรวมต่ำกว่าด้วยคะแนน 65%โดดเด่นตัวเองโดยการได้รับคะแนนสูงสุดในหมวดหมู่’ความหมาย’ที่ 67%แนะนำการฝึกอบรมอาจมีการจัดแนวปรัชญาที่แตกต่างกัน

โมเดลโอเพนซอร์ซที่มีประสิทธิภาพสูงสุด Deepseek-R1 ทำคะแนนรวม 65% ที่น่าประทับใจโดยรวมกับ Claude 3.7 Sonnet และมีประสิทธิภาพสูงกว่ารุ่นปิดที่สำคัญหลายรุ่น มันแสดงให้เห็นถึงความแข็งแกร่งโดยเฉพาะใน’ความสัมพันธ์'(74%) และ’ศรัทธา'(40%) ทำให้มีการแข่งขันสูงกับระบบกรรมสิทธิ์ระดับสูงในโดเมนเฉพาะเหล่านั้น

ในทางตรงกันข้ามโมเดล Llama 4 Maverick ใหม่ของ Meta ประสิทธิภาพของมันมีความสมดุล แต่ไม่ได้นำไปสู่ประเภทใดประเภทหนึ่งแสดงให้เห็นถึงความสามารถทั่วไปมากขึ้นโดยไม่มีจุดแข็งเฉพาะที่เห็นในคู่แข่งบางราย ผลลัพธ์ที่ละเอียดเหล่านี้แสดงให้เห็นถึงยูทิลิตี้ของ FAI Benchmark ในการเคลื่อนย้ายเกินคะแนนเดียวเพื่อเปิดเผย“ บุคลิกภาพ” ที่มีค่าตามมูลค่าที่ไม่ซ้ำกันของระบบ AI ที่แตกต่างกัน

Pat Gelsinger แสดงความคิดเห็นโดยตรงเกี่ยวกับผลลัพธ์โดยสังเกตว่าโมเดลยังไม่บรรลุนิติภาวะในพื้นที่สำคัญ “ พื้นที่ส่วนใหญ่เช่นตัวละครความสุขความสัมพันธ์-พวกเขายังไม่ดีขนาดนั้นฉันหมายถึงเราเห็นคะแนนเหล่านั้นในยุค 50 คนศรัทธาเราเห็นคะแนนในยุค 30 และ 40″ เขา

Categories: IT Info