中國人工智能初創公司Z.AI通過其新的GLM-4.5車型升級了該國激烈的AI Price War。該公司以前是Zhipu,宣布了周一的開源發布。它將新模型的定位比主要競爭對手DeepSeek的型號便宜。
為複雜的“代理”任務構建的
,該版本的目標是該行業向自主AI轉移。這些系統可以執行多步說明。這一舉動加劇了中國技術領域的競爭,該公司現在在該領域進行了權力和價格。
Z.AI在美國的製裁下運作時也會發生髮射,並在競爭中增加了地緣政治層。這些模型可通過Z.AI平台,API和AS open-weights on targets on _> face face “>
在引擎蓋下:為效率而建立的代理模型
z.ai的新GLM-4.5家族針對下一波AI應用程序進行了設計,而不是簡單的指令遵循的範圍,以擁抱更複雜的“代理”框架。根據該公司的技術博客文章,這些模型旨在統一推理,編碼和代理工具使用,從而使他們可以自主地分解複雜的請求,並製定了一個複雜的要求,並無需執行計劃,並且執行人類指導。這種方法旨在滿足新興代理應用程序越來越複雜的要求。
旗艦GLM-4.5是一種強大的Experts(MOE)模型,這是一種提高計算效率的設計選擇。儘管它包含大量的3550億個參數,但對於任何給定的任務,它僅激活320億參數子集。 Z.AI還發布了較小的GLM-4.5空氣變體,總參數為10060億個,有120億個主動參數,以提高效率。 Z.AI在戰略偏離諸如DeepSeek-V3和Kimi K2之類的競爭對手時,優先考慮“更深層,更廣泛”的體系結構,增加了增強模型核心推理能力的層次數量。
基礎的基礎是該體系結構的基礎是幾項關鍵的技術創新。該模型採用分組的關注和更高的關注點來提高推理基準的性能。為了確保在其大規模訓練過程中穩定,該訓練涉及15萬億英鎊的普通語料庫,然後是7億億美元的代碼和推理語料庫,該團隊利用了MUON優化器和QK-Norm來穩定注意力邏輯。該模型還具有本機功能調用和128K上下文長度,這對於啟用其高級代理能力至關重要。
非常明顯,Z.AI聲稱旗艦模型只能在NVIDIA的H20芯片中的八個。該硬件是為中國市場設計的出口控製版本,該模型的效率強調了在重大硬件約束中提供高性能的戰略重點。 This combination of advanced architecture, massive-scale training, and hardware optimization positions GLM-4.5 as a formidable new entry in the global AI landscape.
Performance
According to comprehensive benchmarks published by Z.ai, the new GLM-4.5 model establishes itself as a top-tier contender, ranking third overall against a field of leading proprietary and來自OpenAI,Anthropic和Google的開源模型。較小的GLM-4.5空氣也表現出色,可確保第六位。該數據表明,Z.AI已成功開發了一個在AI能力邊界競爭的模型,挑戰了已建立的層次結構。
在旨在衡量其代理能力的測試中,GLM-4.4表現出了令人印象深刻的結果。在-bench和Berkeley功能呼叫排行榜(BFCL-V3)上,其性能與Claude 4十四行詩的表現相匹配。該模型還擅長複雜的Web瀏覽任務,在挑戰性的BrowseComp基準測試上優於Claude-4-Opus。它的“思考”模式在高級推理中被證明有效,在AIME24數學競賽測試中獲得91.0的得分,在GPQA研究生級問題-提問基準中獲得79.1。 Grok 4 MMLU Pro 84.6 81.4 85.3 87.3 86.2 84.9 84.5 86.6 AIME24 91.0 89.4 90.3 75.7 88.7 89.3 94.1 94.3 MATH 500 98.2 98.1 99.2 98.2 96.7 98.3 98.0 99.0 SciCode 41.7 37.3 41.0 39.8 42.8 40.3 42.9 45.7 GPQA 79.1 75.0 82.7 79.6 84.4 81.3 81.3 81.1 87.7 HLE 14.4 10.6 20.0 11.0 11.7 21.1 14.9 14.9 15.8 23.9 LiveCodeBench(2407-2501) (估計)67.7 64.8 70.0 64.4 70.5 68.3 69.4 73.2
模型的編碼功能同樣強大。在使用標準化的編碼框架的直接,多輪的人類評估中,GLM-4.5對Moonshot的Kimi K2達到了53.9%的勝利率,並以80.8%的成功率統治了阿里巴巴的Qwen3-Coder。 Z.AI還報告了一個工具稱呼成功率為90.6%,在其同行中最高,證明了對代理編碼任務的卓越可靠性。 The full trajectories for these tests have been made publicly available for community review.
與此強效率配對,並效率不錯。 Z.AI進行的帕累托邊境分析表明,GLM-4.5和GLM-4.5-air都位於性能與模型量表的最佳權衡邊界上。這表明這些模型在沒有類似強大的競爭對手的計算開銷的情況下取得了頂級結果,這加強了公司的戰略專注於提供高性能和成本效益。
中國激烈的AI Price Price Price Price War
的發行是直接的國內競爭者,大多數是在國內競爭的人,大多數是很高的。 Z.AI明確削弱了其價格競爭對手。與其R1型號的14美分DeepSeek收費相比,該公司將向GLM-4.5收取每百萬個投入令牌的11美分。
這種積極的定價持續了一種趨勢,使AI行業激增。 DeepSeek本身通過提供OpenAI模型成本的一小部分提供服務來獲得突出。現在,Z.Ai正在加強這場價格戰,迫使公司競爭效率,而不僅僅是原始力量。
根據Z.Ai自己的基準測試,GLM-4.5與OpenAI,Google,Google的頂級模型相競爭,並在一系列的推理,編碼,編碼和代理測試方面競爭。 Minefield
Z.AI的技術進步是在強烈的地緣政治壓力的背景下設定的。該公司以其前名稱為Zhipu,為。
這一環境迫使中國公司在約束下進行創新。對NVIDIA的H20芯片的依賴是美國出口控制旨在減緩中國AI野心的直接結果。但是,Z.AI首席執行官張彭(Zhang Peng)告訴CNBC,該公司具有足夠的計算能力,他說:“該公司目前擁有足夠的計算能力,因此不需要購買更多的芯片。 ”
時機也很關鍵。 Z.Ai的發射是因為DeepSeek的勢頭停滯不前。該公司備受期待的R2型號已無限期地延遲,部分原因是Z.AI非常精心設計了其模型來導航。
全球攻擊性競賽
專注於“ AganiC AI”的專注於“ Agenic Ai” Z.Ai在Z.AI的最前沿,這是一個基本屬性行業的最前沿。目標是超越聊天機器人,這些聊天機器人回答了完成任務的自主代理。例如,這種趨勢已經在企業界得到驗證。科技酋長馬可·阿根蒂(Marco Argenti)解釋了這一願景,他說:“這實際上是關於人的,AIS並存。工程師將有能力以連貫的方式真正描述問題……”這反映了人類監督AI的未來,而不僅僅是將其用作工具。
z.ai並非單獨在這場比賽中。阿里巴巴最近發布了其Qwen3-Coder,Moonshot AI推出了其Kimi K2型號,均針對代理功能。 Even OpenAI’s Sam Altman acknowledged the competitive pressure from China, promising earlier this year, “we will obviously deliver much better models and also pull up some releases.”
By open-sourcing GLM-4.5, Z.ai is making a strategic play for developer adoption.即使地緣政治緊張局勢上升,這種方法也會引起全球合作。