Bảy tháng sau khi rời Intel, cựu CEO Pat Gelsinger hôm thứ Năm đã tiết lộ một điểm chuẩn mới được thiết kế để đo lường nếu AI thực sự tốt cho mọi người. Thông qua vai trò mới của anh ấy tại công ty Faith Faith”Gloo, Gelsinger đã ra mắt Bao gồm tính cách, các mối quan hệ và đức tin, nhằm mục đích chuyển trọng tâm của ngành công nghiệp từ việc ngăn chặn tác hại để chủ động tạo ra AI đóng góp tích cực cho cuộc sống của con người. Định vị Gelsinger là một tiếng nói quan trọng trong cuộc tranh luận ngày càng tăng về đạo đức và giá trị của AI. Anh ấy đã mô tả quá trình chuyển đổi của mình trong một cuộc phỏng vấn gần đây, nói rằng, Post Post Intel, tôi phải làm gì tiếp theo? Và bạn biết, vì điều đó, tôi đã cởi một chiếc mũ 7/24 và đội hai chiếc mũ.”src=”Dữ liệu: Image/SVG+XML; gihdpzhropsixmjm2iibozwlnahq9ijgyocigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Một trong những chiếc mũ đó liên quan đến đầu tư công nghệ sâu tại Playground Global. Người khác là vai trò của ông là Chủ tịch điều hành và Trưởng phòng Công nghệ tại Gloo, một công ty mà ông đầu tiên đầu tư trong một thập kỷ trước. Động thái này phản ánh niềm đam mê lâu dài đối với sự giao thoa giữa đức tin và công nghệ, được thúc đẩy bởi mong muốn đảm bảo các cộng đồng dựa trên giá trị có tiếng nói trong việc định hình kỷ nguyên AI. States , nghiên cứu liên kết AI hiện tại chủ yếu tập trung vào việc phòng ngừa tác hại thay vì quảng bá hoạt động của con người.”href=”https://gloo.com/flourishing-hub/research”Target=”_ Blank”> Nỗ lực chung của các nhà nghiên cứu tại các trường đại học Harvard và Baylor . Gloo đã mở rộng công việc này thành bảy chiều cốt lõi: tính cách và đức tính, các mối quan hệ xã hội gần gũi, sức khỏe tinh thần và thể chất, sự ổn định tài chính và vật chất, hạnh phúc và sự hài lòng về cuộc sống, ý nghĩa và mục đích, và một thể loại mới cho đức tin và tâm linh. nghiêm ngặt . Nó sử dụng bộ dữ liệu gồm 1.229 câu hỏi do chuyên gia lưu trữ và, quan trọng, tính toán điểm số bằng giá trị trung bình hình học. Cách tiếp cận thống kê này xử phạt các mô hình cho hiệu suất kém trong bất kỳ chiều nào, đảm bảo chúng không thể che giấu sự thiếu hụt ở các khu vực như ‘có nghĩa là xuất sắc trong‘ tài chính. Đầu tiên, các mô hình phải thực tế chính xác khi trình bày thông tin. Thứ hai, các khuyến nghị của họ nên được hỗ trợ bởi nghiên cứu khoa học về sự hưng thịnh của con người. Cuối cùng, họ phải thúc đẩy hạnh phúc nhất quán trên tất cả các lĩnh vực, bất kể chủ đề cụ thể trong tay. Chúng được rút ra từ các nguồn khác nhau, bao gồm các điểm chuẩn được thiết lập như MMLU, bài kiểm tra chuyên nghiệp, bài báo học thuật và các kịch bản mới do các chuyên gia tạo ra để kiểm tra ứng dụng trong thế giới thực của các giá trị này. Các thẩm phán này đánh giá các phản ứng không chỉ về khía cạnh chính mà còn về các biện pháp tiếp tuyến. Ví dụ, một câu hỏi tài chính cũng có thể được ghi điểm cho sự liên kết của nó với ‘ký tự, hoặc‘ có nghĩa là phiếu tự đánh giá, đảm bảo đánh giá toàn diện. Tuy nhiên, đó không phải là đúng hay sai. Nó có tốt không? Nếu các mô hình đang phản ứng theo những cách giống con người, thì họ nên dẫn mọi người trở nên tốt hơn.'”Biện pháp mới này là câu trả lời của anh ta cho thách thức đó. Trong khi mô hình OpenaiTHER O3 đạt được điểm tổng thể cao nhất là 72, tiếp theo là suy nghĩ flash của Song Tử 2.5 (68) và Grok 3 (67), không có mô hình nào vượt qua ngưỡng 90 điểm mà nhóm FAI định nghĩa là phù hợp mạnh mẽ với sự khởi sắc của con người. Điểm trung bình trên tất cả các mô hình trong danh mục ‘Tài chính là 81%đáng nể. Ngược lại, mức trung bình cho kích thước ‘đức tin chỉ là 35%, làm nổi bật những gì Gloo gọi là thâm hụt quan trọng của người Hồi giáo.”Hiệu suất trung bình tổng thể trên tất cả các mô hình và tất cả bảy chiều chỉ là 60%. Nó đạt được số điểm nổi bật là 87% trong ‘nhân vật, vượt xa các đối thủ của nó. Tuy nhiên, ngay cả nhà lãnh đạo cũng đạt 43% tương đối thấp trong ‘đức tin, nhấn mạnh bản chất phổ quát của thách thức này. Anthropic từ Claude 3.7 Sonnet, trong khi đặt tổng thể thấp hơn với số điểm 65%, tự phân biệt bằng cách kiếm điểm cao nhất trong danh mục ’nghĩa là 67%, cho thấy sự đào tạo của nó có thể có sự liên kết triết học khác nhau. Mô hình nguồn mở hoạt động hàng đầu, Deepseek-R1, đã đạt được tổng thể 65% ấn tượng, gắn với Claude 3.7 Sonnet và vượt trội hơn một số mô hình đóng chính. Nó cho thấy sức mạnh đặc biệt trong ‘mối quan hệ, (74%) và‘ đức tin (40%), làm cho nó cạnh tranh cao với các hệ thống độc quyền hàng đầu trong các lĩnh vực cụ thể đó. Hiệu suất của nó đã được cân bằng nhưng không dẫn đến bất kỳ danh mục nào, cho thấy khả năng tổng quát hơn mà không có các thế mạnh chuyên môn được thấy trong một số đối thủ cạnh tranh. Các kết quả chi tiết này cho thấy tiện ích của FAI Benchmark trong việc vượt ra ngoài một điểm số duy nhất để tiết lộ tính cách dựa trên giá trị duy nhất”của các hệ thống AI khác nhau. src=”Dữ liệu: Image/SVG+XML; IGD2LKDGG9IJK1OSIGAGVPZ2H0PSI3MZGIIHHTBG5ZPSJODHRWOII8VD3D3D

Pat Gelsinger đã nhận xét trực tiếp về kết quả, lưu ý các mô hình non nớt trong các lĩnh vực chính. Hầu hết các lĩnh vực, như tính cách, hạnh phúc, các mối quan hệ-họ vẫn chưa tốt lắm. Ý tôi là, chúng tôi đã nhìn thấy những điểm số đó trong thập niên 50.

Categories: IT Info