阿布達比穆罕默德·本·扎耶德人工智慧大學(MBZUAI) 的研究人員推出了 LlamaV-o1,這是一種新的多模式人工智慧模型,優先考慮推理中的透明度和邏輯連貫性。
與其他通常提供黑盒輸出的推理人工智慧模型不同,LlamaV-o1 逐步展示了其解決問題的過程,允許用戶追蹤其邏輯的每個階段。配合評估中間推理步驟的新基準VRC-Bench 的推出,LlamaV-o1 為醫療診斷、金融和科學研究等不同領域的人工智慧解釋性和可用性提供了全新的視角。 1024″height=”398″src=”data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==”>
此模型和基準的發布反映了人們對人工智慧系統不斷增長的需求,這些系統不僅能提供準確的結果也解釋了這些結果是如何實現的。-Bench:A專為透明推理而設計的基準測試
VRC-Bench 基準測試是 LlamaV-o1 開發和評估的核心要素。傳統的人工智慧基準主要關注最終答案的準確性,常常忽略導致這些答案的邏輯過程。
VRC-Bench 透過忠實步驟和語義覆蓋等指標來評估推理步驟的質量,從而解決了這一限制,這些指標衡量模型的推理與源材料和邏輯一致性的一致性。/p>
相關:Google 全新Gemini 2.0 Flash 思維模型以優異表現挑戰OpenAI o1 Pro
VRC-Bench 涵蓋8 個類別的1,000 多個任務,涵蓋視覺推理、醫學影像、文化背景分析等領域。這些任務具有 4,000 多個手動驗證的推理步驟,使該基準成為評估逐步推理的最全面的基準之一。
研究人員描述了其重要性,並指出:「大多數基準測試主要關注最終任務的準確性,而忽略了中間推理步驟的品質。 VRC-Bench 提出了一系列不同的挑戰…能夠對推理中的邏輯一致性和正確性進行穩健評估。像LlamaV-o1 這樣的模型對其決策過程負責,提供對高風險應用至關重要的透明度。 >
LlamaV-o1 在VRC-Bench 和其他基準測試上的表現證明了其技術實力,其推理得分達到68.93,超越了LLava-CoT(66.21)等其他開源模型,並縮小了與GPT-4o等專有模型的差距。包括MathVista 在內的六個多模態基準測試中, AI2D 和Hallusion-LlamaV-o1 的平均得分為67.33%,這一表現突顯了其在保持邏輯連貫性和透明度的同時處理多樣化推理任務的能力。 Gemini-2.0-Flash-Claude-3.5-Sonnet-MMStar-MMBench-MMVet-MathVista-AI2D-Hallusions-benchmarks-1024×398.jpg”>
訓練LlamaV-o1:課程學習與波束搜尋的協同作用
LlamaV-o1的成功源自於其創新訓練方式。研究人員採用了課程學習,這是一種受人類教育啟發的技術。
這種方法從更簡單的任務開始,逐漸進展到更複雜的任務,使模型能夠在應對高級挑戰之前建立基礎推理技能。
透過建構訓練過程,課程學習提高了模型泛化各種任務的能力,從文檔OCR 到科學推理。的QwQ-32B-Preview 與OpenAI 一起加入人工智慧模型推理之戰
Beam Search 是一種最佳化演算法,它透過並行產生多個推理路徑並選擇最符合邏輯的路徑來增強這種訓練方法。這種方法不僅提高了模型的準確性,還降低了計算成本,使其在實際應用中更有效率。
正如研究人員所解釋的,「透過利用課程學習和Beam Search,我們的模型逐漸獲得技能……確保優化的推理和強大的推理能力。」
在醫學中的應用、金融及其他
LlamaV-o1 透明的推理功能使其特別適合信任和可解釋性至關重要的應用,例如在在醫學影像中,該模型不僅可以提供診斷。決策的信任度和準確性。”height=”514″src=”data: image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==”>
LlamaV-o1 代表了多模態AI 的重大進步,特別是在其提供透明的推理。透過將課程學習和 Beam Search 與 VRC-Bench 強大的評估指標相結合,它為可解釋性和效率樹立了新的基準。
隨著人工智慧系統越來越多地融入關鍵產業,對能夠解釋其推理過程的模型的需求只會增長。