Anthropic hôm thứ Năm đã phát hành một khung mã nguồn mở để đo lường”sự đồng đều”chính trị trong các mô hình AI, định vị chatbot Claude của họ trong một cuộc chạy đua toàn ngành để đạt được tính trung lập trước các đối thủ từ OpenAI và Meta.

Tiêu chuẩn công khai mới của công ty khẳng định các mô hình Claude của họ cân bằng hơn GPT-5 của OpenAI và Llama 4 của Meta.

Sáng kiến này xuất hiện trong bối cảnh có sự giám sát chính trị gay gắt đối với xu hướng AI, nổi bật là lệnh điều hành gần đây của Nhà Trắng yêu cầu”ý thức hệ”tính trung lập”từ các công ty công nghệ. Động thái này đẩy cuộc tranh luận về điều gì tạo nên một AI thực sự khách quan lên hàng đầu trong chương trình nghị sự của ngành.

Khuôn khổ’Sự công bằng’của Anthropic gia nhập Đấu trường thiên vị AI

Phương pháp”Lời nhắc theo cặp”mới của Anthropic, được trình bày chi tiết trong bài đăng trên blog của công ty, nhằm mục đích cung cấp một cách thức minh bạch và có thể nhân rộng để đánh giá cách các mô hình AI xử lý các chủ đề nhạy cảm về mặt chính trị.

Mục tiêu của nó là để đảm bảo các mô hình xử lý các quan điểm đối lập với chiều sâu và chất lượng như nhau. Trong thông báo của mình, Anthropic tuyên bố: “Chúng tôi muốn Claude có cách tiếp cận công bằng khi nói đến chính trị”.

Khuôn khổ này đánh giá các mô hình dựa trên ba tiêu chí chính: liệu chúng có tương tác với những lời thúc giục từ các hệ tư tưởng đối lập một cách cân bằng hay không, liệu chúng có thừa nhận những lập luận phản biện hay không và tần suất chúng từ chối trả lời.

Hệ thống này được thiết kế để nắm bắt các dạng thiên vị tinh vi ngoài những lỗi thực tế đơn giản.

Theo kết quả được công bố của chính Anthropic, đó là hầu hết các mẫu có khả năng nhất, Claude Opus 4.1 và Sonnet 4.5, lần lượt đạt 95% và 94% trên chỉ số độ thuận tay.

Những điểm số này xếp chúng hơi kém so với Gemini 2.5 Pro của Google (97%) và Grok 4 của xAI (96%). Tuy nhiên, đánh giá cho thấy Claude vượt trội đáng kể so với mô hình GPT-5 mới nhất của OpenAI, đạt 89%, và Llama 4 của Meta, tụt lại đáng kể ở mức 66%.

Sự thuận tay ngang bằng đã dẫn đến Claude và các mô hình khác (Nguồn: Anthropic)

Bằng cách cung cấp nguồn mở cho đánh giá của mình, Anthropic đang mời gọi sự xem xét kỹ lưỡng đồng thời thúc đẩy một tiêu chuẩn đo lường chung cho toàn ngành.

Một ngành bị chia cắt: Các triết lý cạnh tranh về tính trung lập của AI

Thông báo này là động thái mới nhất trong cuộc đấu tranh rộng lớn hơn trên toàn ngành nhằm xác định và quản lý sự thiên vị AI, trong đó mỗi phòng thí nghiệm lớn áp dụng một chiến lược riêng biệt.

Mới tháng trước, OpenAI đã phát hành khuôn khổ chi tiết của riêng mình, tuyên bố rằng họ đã giảm được 30% thành kiến chính trị đối với GPT-5.

Quan điểm chính thức của OpenAI là “ChatGPT không nên thiên vị chính trị theo bất kỳ hướng nào”. Cách tiếp cận của nó tập trung vào việc xác định và giảm thiểu năm “trục” thành kiến cụ thể: vô hiệu hóa người dùng, leo thang người dùng, thể hiện chính trị cá nhân, đưa tin bất cân xứng và từ chối chính trị, như được nêu chi tiết trong nghiên cứu của mình.

Phương pháp này nhằm tạo ra cái nhìn toàn diện về hành vi của mô hình dưới áp lực.

Trong khi các đối thủ cạnh tranh như Meta tập trung vào việc điều chỉnh các kết quả đầu ra nghiêng về bên trái, Anthropic và OpenAI đang xây dựng các công cụ đo lường.

Quan điểm đối lập dẫn đến Claude và các mô hình khác (Nguồn – Anthropic)

Vào tháng 4, Meta thông báo rằng họ đang tích cực điều chỉnh các mô hình Llama 4 của mình để chống lại những gì họ mô tả là sai lệch lịch sử.

Trong thông báo của mình, Meta tuyên bố: “Ai cũng biết rằng tất cả các LLM hàng đầu đều có vấn đề về sai lệch—cụ thể là, trước đây họ nghiêng về bên trái khi thảo luận về các chủ đề chính trị và xã hội.”

Triết lý điều chỉnh lại tích cực này, nhằm mục đích thể hiện”cả hai bên”, trái ngược hoàn toàn với cách tiếp cận đo lường đầu tiên của các đối thủ và phù hợp với sự thay đổi rộng rãi hơn trong chính sách nội dung của Meta.

XAI của Elon Musk đại diện cho cách tiếp cận thứ ba, gây tranh cãi hơn: cố tình đưa ra một quan điểm tư tưởng cụ thể. Grokpedia mới ra mắt gần đây của ông bị phát hiện đã sao chép các trang Wikipedia trong khi đưa ra quan điểm thiên hữu về các chủ đề như biến đổi khí hậu và giới tính.

Tuy nhiên, số liệu về sự công bằng của Anthropic cho Grok điểm thậm chí còn cao hơn Claude và Grok đã vô số lần sửa chữa các tuyên bố sai của Elon Musk.

Có vẻ như Grok đang được điều chỉnh thủ công cho các cụm chủ đề rất cụ thể theo ý thích của Elon Musk.

Grok trước đây đã bị bắt vì có hướng dẫn. để kiểm duyệt những lời chỉ trích đối với Musk và Donald Trump, đồng thời, trong một vụ việc riêng, đã tạo ra nội dung chống Do Thái.

Áp lực chính trị và việc tìm kiếm tiêu chuẩn ngành

Trong bối cảnh áp lực chính trị căng thẳng đối với tính khách quan của AI, các công ty công nghệ đang phải đối mặt với một bối cảnh phức tạp.

Cuộc đua giành tính trung lập của AI không chỉ là một cuộc thi học thuật; nó là một phản ứng trực tiếp đối với các mối đe dọa pháp lý. Vào tháng 7 năm 2025, Nhà Trắng đã ban hành lệnh hành pháp nhằm ngăn chặn tình trạng”Woke AI” trong chính phủ liên bang.

Sắc lệnh này yêu cầu”sự trung lập về ý thức hệ”và chỉ đạo Văn phòng Quản lý và Ngân sách để ban hành hướng dẫn mua sắm trước ngày 20 tháng 11.

Điều này tạo ra động lực tài chính mạnh mẽ để các công ty chứng minh tính khách quan trong mô hình của họ và tránh các hệ tư tưởng mà hệ tư tưởng coi là nguồn gốc của sự thiên vị.

Bối cảnh chính trị này khiến các tiêu chuẩn minh bạch, có thể đo lường được về sự thiên vị trở nên quan trọng hơn bao giờ hết. Tuy nhiên, như chính Anthropic thừa nhận, nhiệm vụ này đầy rẫy sự mơ hồ.

Công ty thừa nhận trong báo cáo của mình rằng “không có định nghĩa thống nhất nào về thành kiến ​​chính trị và không có sự đồng thuận về cách đo lường nó”.

Các nghiên cứu khác nhau đã phát hiện ra rằng các mô hình có thể xuất hiện thành kiến ​​chỉ bằng cách tuân thủ tính chính xác thực tế khi bản thân sự thật bị tranh cãi về mặt chính trị. Điều này nêu bật thách thức cốt lõi: tính trung lập của một người là thành kiến ​​của người khác.

Bất chấp những thách thức này, việc thúc đẩy một tiêu chuẩn chung đang có đà phát triển. Bằng cách phát hành công khai các công cụ của mình, Anthropic đang nỗ lực định hình cuộc đối thoại và thiết lập một tiêu chuẩn đáng tin cậy.

Công ty hy vọng công việc của mình sẽ dẫn đến một bộ quy tắc chung cho toàn bộ lĩnh vực, vượt ra ngoài các đánh giá độc quyền, chỉ dành cho nội bộ.

Như Anthropic đã kết luận, “Một tiêu chuẩn chung để đo lường thành kiến chính trị sẽ mang lại lợi ích cho toàn bộ ngành AI và khách hàng của nó.”

Liệu ngành này có thể hợp nhất xung quanh một định nghĩa duy nhất về sự công bằng hay không vẫn là một câu hỏi mở, nhưng các nỗ lực nhằm tạo ra một cái hiện là trọng tâm của tương lai phát triển AI và niềm tin của công chúng.

Categories: IT Info