阿里巴巴推出了QWEN 2.5-MAX,這是一個大規模的Experts(MOE)AI模型,旨在提高推理,解決問題和編碼效率。
該模型已接受了超過20萬億代幣的培訓,並從人類反饋(RLHF)中納入了監督的微調(SFT)和增強學習,以優化其在各種任務中的準確性。
qwen 2.5-max 可通過alibaba cloud的API獲得,並且也集成到Qwen聊天中研究人員可以探索其功能。
與Openai api api apipibility,現有的基於GPT的兼容性,可以集成2.5.5-5-5-5最大調整最小。阿里巴巴旨在擴大其AI投資組合的舉動,這是對DeepSeek的直接挑戰,DeepSeek以其自己的高性能AI模型迅速引起了人們的關注。
DeepSeek和DeepSeek和Alibaba競爭性響應的興起
DeepSeek已成為中國AI部門的主要競爭對手,最近幾個月推出了兩個重要模型。 2024年12月,它引入了DeepSeek V3,這是一種針對自然語言處理(NLP),多語言應用程序和對話式AI優化的成本效益AI模型。
該模型使用了專家(MOE)體系結構的混合物,它允許它僅激活其每個任務參數的子集,從而提高效率,同時降低計算成本。
上次Week DeepSeek發布了DeepSeek R1,該模型專為推理,複雜的解決問題和高級數學任務而設計,在AI行業引起動盪並影響全球金融市場。在指控DeepSeek非法獲得DeepSeek R1的機密培訓數據之後,Microsoft和Openai已開始調查。
與V3不同,V3優先考慮效率,R1使用加固學習(RL)和THEACK鏈(COT)( COT)(COT)將復雜的邏輯挑戰分解為逐步解決方案的技術。
雖然DeepSeek的V3模型具有很高的成本效益,其投入成本為每百萬個代幣0.14美元,輸出成本為每百萬個代幣0.28美元,但更高級的R1型號的價格明顯更高。
以推理為重點的模型需要每百萬個代幣的投入為0.55美元,而每百萬個代幣的輸出為2.19美元。這種差異反映了增強學習和高級推理能力所需的額外計算能力。
阿里巴巴的QWEN 2.5-MAX作為混合解決方案進入AI競爭,將DeepSeek V3的效率與類似於R1的效率結合在一起,而同時相似保持成本和性能之間保持平衡。
基準表現:QWEN 2.5-MAX與DeepSeek V3和其他AI模型
Alibaba報告Qwen 2.5–Max在多個AI評估測試中勝過DeepSeek V3。該模型在 Arena-hard 上取得了很高的分數,and liveBench ,一種用於測量現實應用程序中AI性能的基準。
它還顯示了 livecodebench> livecodebench ,該評估AI-DRIEN的編碼功能和GPQA-diamond,一種用於基於知識推理的測試。
來源:Alibaba
該公司還指出,QWEN 2.5-MAX在MMLU-PRO中提供了競爭成果,MMLU-PRO是評估大學水平知識和推理技能的基準。
雖然OpenAI的GPT-4O和Anthropic的Claude-3.5-Sonnet等專有模型無法直接用於基準測試,但阿里巴巴聲稱,QWEN 2.5-MAX基於開放評估測試的可比級別執行。