谷歌全新Gemini 2.0 Flash思考模型以優異效能挑戰OpenAI o1 Pro

Google 發布了 Gemini 2.0 Flash Thinking，這是一個實驗推理模型，旨在使用多種類型的數據解決複雜問題。新模型讓使用者可以看到得出答案所需的步驟，從而深入了解其分析過程。的關鍵特徵。 a>

— Sundar Pichai (@sundarpichai) 2024 年12 月19 日

逐步顯示推理過程

Gemini 2.0 Flash Thinking 的一個關鍵特徵是它注重讓使用者能夠理解其推理過程。這與一些高階人工智慧系統形成鮮明對比，這些系統的決策過程通常不明確。認知步驟的方法。根據 Google 官方文檔，該模型中的「思維模式」比標準 Gemini 2.0 Flash 模型提供了更強的推理能力。的想法是使其操作更容易理解。初步觀察表明，該模型可以有效、快速地解決其他人工智慧系統難以解決的問題。著特徵Gemini 2.0 Flash Thinking 的一大優點在於它能夠同時處理影像輸入和文字。雖然OpenAI 的o1 最初只處理文本，後來添加了圖像功能，但Google 的模型從一開始就被設計為處理多種資料類型。複雜情況。例如，該模型已經能夠解決需要使用文字和圖像的難題，展示了其處理不同資料格式的能力。開發者目前可以透過Google AI Studio 和Vertex AI 存取這些功能.

基準測試結果

測試的Gemini-2.0-Flash-Thinking-exp-1219 的Chatbot Arena 基準排行榜的第一個結果與列出的OpenAi o1 模型（o1-preview 和o1-mini）相比，該模型表現出普遍優越的性能。所有類別中排名第一！ pic.twitter.com/mRctNA31B9

— lmarena.ai（以前的lmsys.org）(@lmarena_ai) 2024 年12 月19 日

反對o1-preview，Gemini-2.0-Flash-思考在整體表現、整體風格控制、創意寫作、指令遵循和較長查詢方面明顯優於它。他們在硬提示、帶風格控制的硬提示、編碼和數學方面取得了相同的排名。 與o1-mini 相比，Gemini-2.0-Flash-Thinking 在整體性能、整體風格控制、硬提示、風格控制硬提示、創意寫作、指令遵循和更長方面明顯優於o1-mini詢問。他們在編碼和數學方面取得了相同的排名。

要注意的是，本次比較僅包含 o1 模型的「預覽版」和「迷你版」。此概述中沒有 o1 和 o1 Pro 的穩定版本，這意味著它沒有反映與 o1 系列型號的潛在更強大的穩定版本的比較。-Flash-Thinking-exp-1219 與o1-preview 和o1-mini 型號相比表現出更強的性能。 strong>Gemini 2.0 Flash Thinking 詳情

Gemini 2.0 Flash Thinking 目前作為 Google AI Studio 中的實驗提供。它建立在最近發布的 Gemini 2.0 Flash 模型的基礎上。

Google DeepMind 首席科學家傑夫·迪恩(Jeff Dean) 解釋說，該模型「經過訓練，可以使用思維來加強推理」。會產生有希望的結果”，指的是推理時間計算量。處理查詢時使用的計算資源。

引入Gemini 2.0 Flash Thinking，這是一個明確展示其想法的實驗模型。…..

-Jeff Dean (@JeffDean) 2024 年12 月19 日

Dean 也分享了一個演示，其中模型解決了複雜的物理問題。查看此演示，其中模型解決了物理問題並解釋了其推理。 pic.twitter.com/Nl0hYj7ZFS

—傑夫·迪恩(@JeffDean) 2024 年12 月19 日

此模型的輸入限制為32,000 個令牌，最多可產生長度為8,000 個令牌的輸出。 Google 文件指出「思考模式的回應具有更強的推理能力」比基本Gemini 2.0 Flash 模型強”，強調其分析能力的提高。

目前，Google AI Studio 中免費提供模型，但文件表明某些集成（例如Google 搜尋功能）尚不可用。該模型專為“多模式理解”而設計、推理”和「編碼」任務。的完整版本於12 月5 日發布，凸顯了高級AI 領域日益激烈的競爭。 OpenAI 的 o1 pro 模式強調透過增加運算資源來提高效能，而 Google 的 Gemini 2.0 Flash Thinking 則強調其推理過程的透明度。

這種差異凸顯了人工智慧開發中使用的對比策略，其中一些策略側重於計算能力，而另一些策略則優先考慮用戶的理解和信任。

谷歌全新Gemini 2.0 Flash思考模型以優異效能挑戰OpenAI o1 Pro

Published by All Things Windows on December 19, 2024

逐步顯示推理過程

基準測試結果

IT Info

OpenAI 的 ChatGPT Mac 應用程式獲得語音控制和應用程式集成

IT Info

微軟將 Copilot+ AI 即時翻譯擴展到 Intel 和 AMD PC

IT Info

GitHub 宣布針對 Visual Studio Code 推出新的 GitHub Copilot 免費計劃

谷歌全新Gemini 2.0 Flash思考模型以優異效能挑戰OpenAI o1 Pro

Published by All Things Windows on December 19, 2024

逐步顯示推理過程

基準測試結果

Related Posts

IT Info

OpenAI 的 ChatGPT Mac 應用程式獲得語音控制和應用程式集成

IT Info

微軟將 Copilot+ AI 即時翻譯擴展到 Intel 和 AMD PC

IT Info

GitHub 宣布針對 Visual Studio Code 推出新的 GitHub Copilot 免費計劃