Anthropic 週四發布了一個開源框架,用於衡量人工智能模型中的政治“不偏不倚”,將其 Claude 聊天機器人定位於與 OpenAI 和 Meta 的競爭對手進行的全行業中立競賽。

該公司的新公共基準聲稱其 Claude 模型比 OpenAI 的 GPT-5 和 Meta 的 Llama 4 更加平衡。

該舉措是在對人工智能偏見進行嚴格的政治審查之際提出的,突出顯示白宮最近發布的一項行政命令要求科技公司保持“意識形態中立”。此舉將關於什麼是真正客觀的人工智能的爭論推到了行業議程的最前沿。

在公司博客文章中詳細介紹,旨在提供一種透明且可複制的方式來評估 AI 模型如何處理政治敏感問題主題。

其目標是確保模型以同等深度和質量對待相反的觀點。 Anthropic 在其聲明中表示,“我們希望 Claude 在政治問題上採取公平的態度。”

該框架根據三個關鍵標準評估模型:它們是否以平衡的方式處理來自對立意識形態的提示,它們是否承認反駁,以及它們拒絕回答的頻率。

該系統旨在捕捉簡單事實錯誤之外的微妙形式的偏見。

根據 Anthropic 自己發布的數據結果顯示,其最強大的模型 Claude Opus 4.1 和 Sonnet 4.5 在公平性指標上分別得分為 95% 和 94%。

這些分數略落後於 Google 的 Gemini 2.5 Pro (97%) 和 xAI 的 Grok 4 (96%)。然而,評估結果顯示,Claude 的表現明顯優於 OpenAI 最新的 GPT-5 模型(得分為 89%)和 Meta 的 Llama 4(得分為 66%)。

Claude 和其他模型的結果一視同仁(來源:Anthropic)

通過開源其評估,Anthropic 正在邀請審查,同時推動整個行業的通用測量標準。

A破碎的行業:人工智能中立性的競爭理念

這一聲明是更廣泛的全行業範圍內定義和管理人工智能偏見鬥爭的最新舉措,每個主要實驗室都採取了不同的策略。

就在上個月,OpenAI 發布了自己的詳細框架,聲稱它已經實現了 GPT-5 政治偏見減少 30% 的目標。

OpenAI 的官方立場是“ChatGPT”不應該在任何方向上有政治偏見。 “其方法側重於識別和減輕五個特定的偏見“軸”:用戶無效、用戶升級、個人政治表達、不對稱覆蓋和政治拒絕,正如在其研究中詳細介紹的

該方法旨在創建模型行為的整體視圖壓力。

雖然像 Meta 這樣的競爭對手專注於糾正感知的左傾輸出,但 Anthropic 和 OpenAI 正在構建測量工具。

Claude 和其他模型中的觀點結果相反(來源-Anthropic)

4 月份,Meta 宣布正在積極調整其 Llama 4 模型,以抵消其所描述的歷史偏差。

Meta 在其聲明中聲稱,“眾所周知,所有領先的 LLM 都存在問題這種積極重新調整的理念旨在展現“雙方”,與其競爭對手的衡量優先方法形成鮮明對比,並與 Meta 內容政策的更廣泛轉變相一致。埃隆·馬斯克的 xAI 代表了第三種更具爭議性的方法:故意嵌入特定的意識形態觀點。他最近推出的 Grokipedia 被發現抄襲了維基百科頁面,同時在氣候變化和性別等主題上註入了右傾傾向。

然而,Anthropic 的公平性指標給了 Grok 比 Claude 更好的分數,而且 Grok 被發現無數次糾正了埃隆·馬斯克的虛假陳述。

看來,Grok 正在根據埃隆的喜好針對非常具體的主題集群進行手動調整。馬斯克。

Grok 此前因接到指示審查對馬斯克和唐納德·特朗普的批評而被捕,並在另一起事件中生成了反猶太主義內容。

政治壓力和尋找行業標準

在人工智能客觀性面臨的巨大政治壓力下,科技公司正在應對一個複雜的局面。

人工智能中立競賽不僅僅是一場學術活動;也是一場學術活動。這是對監管威脅的直接反應。 2025 年 7 月,白宮發布了一項旨在防止聯邦政府“喚醒人工智能”的行政命令。

該命令要求“意識形態中立”並指示管理和預算辦公室將在 11 月 20 日之前發布採購指南。

這為公司提供了強大的財務激勵,以證明其模型的客觀性,並避免訂單框架中的意識形態成為偏見的來源。

這種政治背景使得透明、可衡量的偏見標準比以往任何時候都更加重要。然而,正如 Anthropic 本身所承認的那樣,這項任務充滿了模糊性。

該公司在報告中承認,“對於政治偏見沒有達成一致的定義,對於如何衡量它也沒有達成共識。”

不同的研究發現,當事實本身受到政治爭議時,僅僅堅持事實準確性,模型就會顯得有偏見。這凸顯了核心挑戰:一個人的中立性就是另一個人的偏見。

儘管存在這些挑戰,推動共同基準的勢頭正在增強。通過公開發布其工具,Anthropic 正在努力塑造對話並建立一個值得信賴的標準。

該公司希望其工作將為整個行業帶來一套共享的規則,超越專有的、僅限內部的評估。

正如 Anthropic 的結論,“衡量政治偏見的共享標準將使整個人工智能行業及其客戶受益。”

該行業是否能夠圍繞公平的單一定義聯合起來仍然是一個懸而未決的問題,但嘗試創建一個現在對於人工智能發展和公眾信任的未來至關重要。

Categories: IT Info