Google 發布了 Gemini 2.0 Flash Thinking,這是一個實驗推理模型,旨在使用多種類型的數據解決複雜問題。新模型讓使用者可以看到得出答案所需的步驟,從而深入了解其分析過程。的關鍵特徵。 a>
— Sundar Pichai (@sundarpichai) 2024 年12 月19 日
逐步顯示推理過程
Gemini 2.0 Flash Thinking 的一個關鍵特徵是它注重讓使用者能夠理解其推理過程。這與一些高階人工智慧系統形成鮮明對比,這些系統的決策過程通常不明確。認知步驟的方法。根據 Google 官方文檔,該模型中的「思維模式」比標準 Gemini 2.0 Flash 模型提供了更強的推理能力。的想法是使其操作更容易理解。初步觀察表明,該模型可以有效、快速地解決其他人工智慧系統難以解決的問題。著特徵Gemini 2.0 Flash Thinking 的一大優點在於它能夠同時處理影像輸入和文字。雖然OpenAI 的o1 最初只處理文本,後來添加了圖像功能,但Google 的模型從一開始就被設計為處理多種資料類型。複雜情況。例如,該模型已經能夠解決需要使用文字和圖像的難題,展示了其處理不同資料格式的能力。開發者目前可以透過Google AI Studio 和Vertex AI 存取這些功能.
基準測試結果
測試的Gemini-2.0-Flash-Thinking-exp-1219 的Chatbot Arena 基準排行榜的第一個結果與列出的OpenAi o1 模型(o1-preview 和o1-mini)相比,該模型表現出普遍優越的性能。所有類別中排名第一! pic.twitter.com/mRctNA31B9
— lmarena.ai(以前的lmsys.org)(@lmarena_ai) 2024 年12 月19 日
反對o1-preview,Gemini-2.0-Flash-思考在整體表現、整體風格控制、創意寫作、指令遵循和較長查詢方面明顯優於它。他們在硬提示、帶風格控制的硬提示、編碼和數學方面取得了相同的排名。 與o1-mini 相比,Gemini-2.0-Flash-Thinking 在整體性能、整體風格控制、硬提示、風格控制硬提示、創意寫作、指令遵循和更長方面明顯優於o1-mini詢問。他們在編碼和數學方面取得了相同的排名。
要注意的是,本次比較僅包含 o1 模型的「預覽版」和「迷你版」。此概述中沒有 o1 和 o1 Pro 的穩定版本,這意味著它沒有反映與 o1 系列型號的潛在更強大的穩定版本的比較。-Flash-Thinking-exp-1219 與o1-preview 和o1-mini 型號相比表現出更強的性能。 strong>Gemini 2.0 Flash Thinking 詳情
Gemini 2.0 Flash Thinking 目前作為 Google AI Studio 中的實驗提供。它建立在最近發布的 Gemini 2.0 Flash 模型的基礎上。
Google DeepMind 首席科學家傑夫·迪恩(Jeff Dean) 解釋說,該模型「經過訓練,可以使用思維來加強推理」。會產生有希望的結果”,指的是推理時間計算量。處理查詢時使用的計算資源。
引入Gemini 2.0 Flash Thinking,這是一個明確展示其想法的實驗模型。…..
-Jeff Dean (@JeffDean) 2024 年12 月19 日
Dean 也分享了一個演示,其中模型解決了複雜的物理問題。查看此演示,其中模型解決了物理問題並解釋了其推理。 pic.twitter.com/Nl0hYj7ZFS
—傑夫·迪恩(@JeffDean) 2024 年12 月19 日
此模型的輸入限制為32,000 個令牌,最多可產生長度為8,000 個令牌的輸出。 Google 文件指出「思考模式的回應具有更強的推理能力」比基本Gemini 2.0 Flash 模型強”,強調其分析能力的提高。
目前,Google AI Studio 中免費提供模型,但文件表明某些集成(例如Google 搜尋功能)尚不可用。該模型專為“多模式理解”而設計、推理”和「編碼」任務。的完整版本於12 月5 日發布,凸顯了高級AI 領域日益激烈的競爭。 OpenAI 的 o1 pro 模式強調透過增加運算資源來提高效能,而 Google 的 Gemini 2.0 Flash Thinking 則強調其推理過程的透明度。
這種差異凸顯了人工智慧開發中使用的對比策略,其中一些策略側重於計算能力,而另一些策略則優先考慮用戶的理解和信任。