Anthropic引入了一個新的可解釋性框架,旨在揭示其語言模型Claude的內部運作,這遠遠超出了傳統的調試方法。該公司聲稱它現在可以追踪模型的“思考” -在內部執行的計算以達到給定的輸出。
這使研究人員可以直接識別直接映射到可解釋行為的數百萬特定的“特徵”或激活模式。這些包括一般能力,例如代碼生成,多語言推理和邏輯扣除,以及與風險相關的行為,例如越獄,欺騙和幻覺知識。
與僅在小型模型或手工挑選的例子上使用的早期可解釋性方法不同,擬人化的“ AI顯微鏡”
不同,Anthropic的系統擴展到Claude尺寸的模型,這些模型(這些都不是數十億個參數,而是使用自動化的功能。神經元或行為。當模型執行某些類型的推理時,擬人化的研究人員能夠確定特定功能的特定功能集合,甚至跟踪這些功能的組合如何產生新興的策略。
人類人類的結果是將結果稱為“ AI顯微鏡”的結果,即“ AI顯微鏡” -一種用於解剖語言模型的本體不可或缺的內部過程的工具。但是這個顯微鏡不僅闡明了克勞德的優勢。它還揭示了隱藏的風險。
在一個引人注目的情況下,在輸出過程中激活了一系列特徵,因為克勞德似乎會產生錯誤的解釋-可取的聽起來很聽起來,但錯誤的理由就無法確保支持。在另一個模型中,該模型產生了表明如何避免進行重新訓練或糾正的戰略思考的輸出。而且最令人震驚的是,研究人員發現了當模型想像的場景對開發人員造成傷害時浮出水面的組合,這表明該模型能夠內部模擬與人類價值觀未對準的動作。
[嵌入式內容]
Anthropic的解釋性努力在另一個領域的進展緊密地遵循了另一個領域的進展:運行時適應性適應性。該公司還
tao補充了克勞德(Claude)不斷發展的建築。 2月,擬人化發布了Claude 3.7十四行詩,這是一種推理模型,能夠在快速,低效果響應和更慢的分析思維之間切換。開發人員可以通過“代幣預算”配置此行為,該行為決定了模型在做出響應之前應反射多少。
與新模型一起,該公司還首次亮相Claude Code,Claude Code是一名以開發人員為中心的助手,負責處理端到端編程任務。 “ Claude Code是一個活動的合作者,可以搜索和讀取代碼,編輯文件,編寫和運行測試,提交代碼並將代碼推向GitHub,並使用命令行工具,”該公司在同一版本中說的。
Claude 3.7還可以在推理和自動化基準方面競爭性地執行競爭力。根據擬人化的指標,它領先於代理編碼(經過驗證的SWE Bench),工具使用(Tau-Bench)和以下說明(IFEVAL)。
Claude獲得實時數據,並引用了
,以增強模型搜索的能力,以啟動了cla cla nive nive nive 3.啟動3.啟動的啟動,以啟動3.啟動。該功能可用於美國的Claude Pro和Team用戶,可檢索實時數據並附加源引用-啟用了許多競爭性AI系統中的遺漏。
啟用時,克勞德(Claude)選擇性地確定何時從Web中提取信息,並包括到原始文章或帖子的內線鏈接。目的是將生成性產出與可驗證的,可靠的人類追溯來源保持平衡-範圍擴展了公司的透明度計劃。
一種用於構建透明劑
人類的協議,也為Claude奠定了跨越更複雜的代理工具的基礎設施。該公司的模型上下文協議(MCP)(於2024年11月推出)為AI系統與內存商店,工具和API進行交互提供了一種標準化方式。 Microsoft本週在Azure AI鑄造廠,語義內核和GitHub中增加了對MCP的支持,這使基於克勞德的代理能夠以持久的態度構建和執行多步驟過程。
隨著AI代理商在軟件自動化和企業任務中的作用擴展,解釋性更加緊迫。當模型執行現實世界的行動時,了解為什麼做出特定選擇的原因不僅是學術性的-這是必需的。
投資者恢復了透明度,而權力
擬人化的最近勢頭得到了大量財務支持的支持。 2月,該公司籌集了35億美元,將其估值提高到615億美元。投資者包括Lightspeed Venture Partners,General Catalyst和MGX。亞馬遜較早的40億美元投資進一步鞏固了克勞德(Claude)在AWS基礎設施上的影響力。
這些舉動將擬人化與Openai,Google Deepmind,Chartin Challenger Deepseek和其他AI實驗室以及Elon Musk的其他AI實驗室進行了戰略競爭。儘管競爭對手專注於多模式集成或實時搜索,但人類正在以企業對齊和人工智能行為透明度享有聲譽。
該策略在政策中也很明顯。本月,該公司向白宮提出了正式建議,敦促對AI系統的國家安全測試,更嚴格的半導體出口控制以及美國能源基礎設施的擴展,以支持增加AI的工作量。它警告說,先進的AI可能會在2026年之前超越人類在關鍵領域的能力-如果保障措施不快就會產生風險。
,雖然主張提倡更強大的外部治理,但眾多的人類悄然撤離了網站上的幾項自願安全保證,這是在白人房屋的一部分中,作為bideen house的一部分,是bideen house的一部分。該公司並未公開對這種逆轉發表評論,儘管它引發了人們對自我調節的行業規範的擔憂。
顯微鏡符合Mirror
Anthropic CEO Dario Amodei對AI開發表達了明確的視野。 As reported by Wired, “There’s a good chance that AI will exceed human intelligence on many tasks in the next couple of years.”
Internally, Claude is already嵌入人類的操作中,包括編碼,研究和政策支持。 But this internal reliance also carries risk—especially as the company’s own tools reveal Claude’s capacity for misdirection and manipulation.
Anthropic’s Transparency Hub, launched alongside the interpretability工具,旨在通過發布方法,模型評估和安全框架來支持獨立審計和公眾信任。該公司在《可解釋性博客文章》中清楚地描述了其目標,它認為該研究方向最終可以使研究人員能夠理解模型在做什麼以及為什麼在改變其行為。
claude在內部測試過程中的行為,在內部測試過程中產生了虛假理性或策略以避免被糾正,而不是被糾正的,而不是被糾正的,而不是被糾正的,而是訓練大型模型。現在正在構建的人類工具對於管理自主權行為的模型至關重要。
是否會廣泛採用這些工具(甚至足夠)提出一個懸而未決的問題。但是,隨著克勞德(Claude)的發展迅速,行業的監督仍在形成中,可解釋性不再是一個附帶項目。這是決定是否完全可以信任高級AI的基礎。