Anthropic推出了Claude Sonnet 4.5,這是其最新的AI模型,該公司聲稱,該模型是世界上最好,最安全的編碼和建造複雜軟件代理的最佳模型。 Claude Sonnet 4.5在關鍵行業基準中展示了最先進的表現。
該模型的表現優於其前任和OpenAI的GPT-5和Google的Gemini等競爭對手。該發布包括對Anthropic開發人員工具的重大升級,例如新的VS代碼擴展名和Agent SDK,旨在實現更複雜,長期的自主任務。
該公司強調該模型的增強安全性,並在嚴格的ASL-3保護下發布減輕風險並減少有害行為。此舉將其定位為在技術迅速升級的技術種族中為開發人員提供更可靠和對齊的AI合作夥伴。
“>
AI編碼和代理耐力的新基準
Anthropic的至高無上的主張得到了一系列令人印象深刻的度量標準,這些指標將SONNET 4.5定位在幾個關鍵行業的頂部。
href=“ https://www.anthropic.com/news/claude-sonnet-4-5″ target=“ _ black”>官方公告 突出顯示其Sate-of-the-the-Art績效在要求的SWE-BENCH經過驗證(例如諸如SWE-BENCH)驗證的基準,可以測量AI的能力的基準,可以衡量AI的能力,可以解決AI的能力。
該模型還在OSWorld上創下了新的記錄,OSWorld是一套套件,該套件測試了AI執行實用的現實,現實的計算機任務的能力。
它在42.2%的42.2%中獲得了61.4%的巨大飛躍,在其前42.2%的股份中,Sonnet 4,Sonnet 4,Sonnet 4,Sonnet,Sonnet,Sonnet,Sonnet。根據該公司共享的基準,這種表演將其領先於Google的Gemini 2.5 Pro和OpenAI的GPT-5等競爭對手。
這種性能飛躍不僅是增量的。它顯著超過了人類自己更昂貴的旗艦型號Opus 4.1。通過與年齡較大的十四行詩4相同的價格點提供卓越的功能,Anthropic為效率和價值提供了有力的案例,使開發人員無需成本溢價即可獲得頂級性能。
超出原始得分,關鍵區別者是模型的大型耐力。人類的報導說,十四行詩4.5可以連續30多個小時進行複雜的多步項目。
這是克勞德4 opus大約七個小時的能力的巨大跳躍,這已經被認為是5月在5月推出的突破。
這不是一個理論上的限制。 During early trials, Anthropic AI researcher David Hershey told TechCrunch he watched the model not only build an application but also stand up database services, purchase domain names, and perform a SOC 2 security audit on its own work.
Sonnet 4.5 demonstrates a new level of practical, long-horizon agency that moves beyond isolated coding tasks into full-cycle project execution.
The model’s intelligence also shows更大的寬度。財務,法律,醫學和STEM專家的早期反饋發現,與以前的模型相比,十四行詩4.5在領域特定的知識和推理方面具有更好的特定領域知識和推理。
這進一步支持了它在衡量數學和推理能力的廣泛評估上的強大評估,以構建這種擴展的操作能力,以構建一種擴展的操作能力。 As Hershey noted, it is hard to capture Claude Sonnet 4.5’s performance on benchmarks alone, highlighting the model’s ability to tackle real-world, long-horizon challenges that go beyond simple code generation.
Empowering Developers with an Upgraded Toolkit
More than just a model upgrade, the Sonnet 4.5 launch is a significant expansion of人類的開發人員生態系統。 The company has rolled out a suite of powerful new tools and features designed to make building with Claude more robust and autonomous, directly addressing key developer pain points.
A central upgrade is within Claude代碼,公司的受歡迎的編碼代理。現在,它包括“檢查點”,這是一項高度要求的功能,可以在每次更改之前自動保存代碼狀態。
這使開發人員能夠立即倒帶到先前的版本,鼓勵更雄心勃勃和探索性的工作,而不必擔心無法進行無法進行的錯誤。
開發者經驗可以進一步增強本機與代碼擴展名,目前在beta中。這將Claude Code的功能直接帶入IDE,提供更豐富的圖形接口,並具有專用的側邊欄和實時的內線差異。 href=“ https://www.anthropic.com/news/context-management” target=“ _ black”>高級上下文管理工具。
“上下文編輯”自動清除了陳舊的工具和結果,並從對話中清除了對話的結果,而claude則可以 也許對高級用戶來說是最重要的,眾人源是釋放Claude Agent SDK 。這不僅是圖書館;它使開發人員訪問了為Claude代碼提供動力的相同核心基礎架構。它使從財務合規到網絡安全的專業工作流程創建定制代理商。 此策略直接支持公司的長期願景。正如首席執行官達里奧·奧莫迪(Dario Amodei)先前所說:“我們正在前往一個人類開發人員可以管理一群代理商的世界,但我認為,持續的人類參與對於質量控制將很重要……”新的SDK是使該願景成為現實的基本一步,使所有開發人員成為所有開發人員的現實。十四行詩4.5是其“迄今為止最合適的邊界模型”。該公司的官方系統卡詳細詳細介紹了廣泛的安全培訓,這導致了不良行為,例如粘糊糊,欺騙和尋求權力的行為。 該模型正在公司的嚴格AI安全3級(ASL-3)框架下發布。這包括部署旨在檢測和防止產生潛在危險產量的過濾器,尤其是與化學,生物學,放射學和核(CBRN)武器相關的產量。 這種關注安全是對整個行業範圍內的關注的直接響應,旨在建立與企業客戶建立信任。該公司聲稱,SONNET 4.5明顯不易引起注射攻擊和其他困擾前幾代人AI型號的漏洞。 sonnet 4.5的發射不會發生在真空中。在競爭激烈的市場中,這是戰略舉動。就在幾週前,Openai推出了GPT-5-Codex,這是一種用於代理編碼的專門模型。它的產品負責人亞歷山大·恩伯里科斯(Alexander Embiricos)強調了其自適應智能,並指出:“ GPT-5-CODEX可以決定要花費另一個小時的問題五分鐘。 ” 同時,Google的雙子座最近在ICPC世界總決賽中證明了超人的問題解決。 Meta還以其代碼世界模型進入了Fray,這是一個專注於理解代碼邏輯而不僅僅是編寫它的“神經調試器”。 Anthropic的策略似乎是雙重的:競爭原始性能,同時在安全性和開發人員的經驗上區分。諸如Cursor和Windsurf之類的合作夥伴的早期反饋是積極的。 對於開發人員而言,該定價與Claude Sonnet 4保持不變,價格為Claude Sonnet 4,以每百萬個輸入令牌為3美元,每百萬美元輸入代幣和每百萬美元的產量代幣,使新能力成為直接的上升能力。為了展示其力量,Anthropic還提供了一個臨時研究預覽,稱為‘_ black’>’image for claude’for Max訂閱者 。 導航超競爭性AI景觀