阿里巴巴的新Qwen 2.5-Max型號採用AI基準的DeepSeek

阿里巴巴推出了QWEN 2.5-MAX，這是一個大規模的Experts（MOE）AI模型，旨在提高推理，解決問題和編碼效率。

該模型已接受了超過20萬億代幣的培訓，並從人類反饋（RLHF）中納入了監督的微調（SFT）和增強學習，以優化其在各種任務中的準確性。

qwen 2.5-max 可通過alibaba cloud的API獲得，並且也集成到Qwen聊天中研究人員可以探索其功能。

與Openai api api apipibility，現有的基於GPT的兼容性，可以集成2.5.5-5-5-5最大調整最小。阿里巴巴旨在擴大其AI投資組合的舉動，這是對DeepSeek的直接挑戰，DeepSeek以其自己的高性能AI模型迅速引起了人們的關注。

DeepSeek和DeepSeek和Alibaba競爭性響應的興起

DeepSeek已成為中國AI部門的主要競爭對手，最近幾個月推出了兩個重要模型。 2024年12月，它引入了DeepSeek V3，這是一種針對自然語言處理（NLP），多語言應用程序和對話式AI優化的成本效益AI模型。

該模型使用了專家（MOE）體系結構的混合物，它允許它僅激活其每個任務參數的子集，從而提高效率，同時降低計算成本。

上次Week DeepSeek發布了DeepSeek R1，該模型專為推理，複雜的解決問題和高級數學任務而設計，在AI行業引起動盪並影響全球金融市場。在指控DeepSeek非法獲得DeepSeek R1的機密培訓數據之後，Microsoft和Openai已開始調查。

與V3不同，V3優先考慮效率，R1使用加固學習（RL）和THEACK鏈（COT）（ COT）（COT）將復雜的邏輯挑戰分解為逐步解決方案的技術。

雖然DeepSeek的V3模型具有很高的成本效益，其投入成本為每百萬個代幣0.14美元，輸出成本為每百萬個代幣0.28美元，但更高級的R1型號的價格明顯更高。

以推理為重點的模型需要每百萬個代幣的投入為0.55美元，而每百萬個代幣的輸出為2.19美元。這種差異反映了增強學習和高級推理能力所需的額外計算能力。

阿里巴巴的QWEN 2.5-MAX作為混合解決方案進入AI競爭，將DeepSeek V3的效率與類似於R1的效率結合在一起，而同時相似保持成本和性能之間保持平衡。

Alibaba報告Qwen 2.5–Max在多個AI評估測試中勝過DeepSeek V3。該模型在 Arena-hard 上取得了很高的分數，and liveBench ，一種用於測量現實應用程序中AI性能的基準。

它還顯示了 livecodebench> livecodebench ，該評估AI-DRIEN的編碼功能和GPQA-diamond，一種用於基於知識推理的測試。

來源:Alibaba

該公司還指出，QWEN 2.5-MAX在MMLU-PRO中提供了競爭成果，MMLU-PRO是評估大學水平知識和推理技能的基準。

雖然OpenAI的GPT-4O和Anthropic的Claude-3.5-Sonnet等專有模型無法直接用於基準測試，但阿里巴巴聲稱，QWEN 2.5-MAX基於開放評估測試的可比級別執行。

阿里巴巴與DeepSeek之間的競爭幾個主要趨勢塑造了AI的未來。開源模型越來越多地使用專有系統（例如GPT-4O和Claude-3.5-sonnet）縮小差距，使高性能AI更容易訪問。

成本效率正成為AI開發的關鍵因素，諸如DeepSeek V3和Alibaba的QWEN系列之類的模型展示了Moe體系結構如何降低支出同時保持高性能。

監管監督正在擴大隨著政府加強對AI培訓數據的監控，計算資源和數據隱私問題。 AI的快速發展繼續重塑該行業，阿里巴巴的QWEN模型與DeepSeek的AI系統之間的競爭可能會在定義大型AI開發的未來中發揮重要作用。