Google昨天將其Gemini 2.5 Flash AI模型推入了公共預覽,使其可以通過多個渠道訪問:面向消費者的Gemini App和開發人員平台,以及包括Gemini Api在內target=“ _ blank”> Google AI Studio 和 Google的公告是其第一個“完全混合推理模型大批量任務。 Google將其性能與成本比率定位在“帕累托邊境”上,這暗示了某些工作負載的最佳平衡。

對於最終用戶,該模型出現在

“>

與2.0 Flash的生成相比,這種2.5迭代的推理能力可顯著提高,同時設計的速度比3月份宣布的高端Gemini 2.5 Pro更快,更便宜。消費者應用程序當前支持諸如Google的Canvas進行代碼和文本精煉之類的功能,儘管Google指出的深度研究支持將在稍後進行。

來源:Google

開發人員的AI推理和成本

是Gemini 2.5 Flash的定義功能,是其hybrid flash的定義功能,是通過 gemini api 。開發人員可以完全關閉“思考”過程,以最大程度地啟用複雜查詢。進一步的粒度通過可調節“思考預算”,實質上是在計算上的限制,可在Query中進行計算上的限制。分析任務的聊天機器人。這種控制水平允許精確管理響應質量,延遲和運營成本之間的權衡。

這種適應性反映在預覽 api定價:0.15 per intup topput topt topput topt topekens。在推理活躍時,產出的產量為每百萬個代幣,造成思維障礙,而障礙卻是每百萬個代幣,每百萬個令牌上漲至每百萬個代幣。 Google在OpenAI的O4-Mini等模型上競爭性地定位了這種非爭議的成本結構,儘管O4-Mini以較高的價格展示了卓越的性能基準。

定價結構增強了Flash的適合性,可用於高頻,成本敏感的使用,例如摘要,聊天應用程序,聊天應用程序,calting,catch,catchs clatch,catchs fluct, Google的開發人員博客。

來源: Google

在雙子座家族中定位閃光燈及其演變

gemini 2.5 Flash於4月9日公開討論,作為一種與2.5 Pro的複雜推理能力不同的模型。儘管Flash專注於速度,但它仍然保留了Pro系列的100萬個令牌上下文窗口特徵,從而可以處理廣泛的輸入。

基礎“思考”概念本身從2024年12月的實驗性Gemini 2.0 2.0 Flash Thinky模型中演變而來。較早的迭代旨在提供推理透明度,部分是對OpenAI O1模型的回應。關於該實驗,Google DeepMind的首席科學家Jeff Dean在X上說:“建立在2.0 Flash的速度和性能上,該模型經過培訓,可以利用思想來加強其推理。而且,當我們增加推理時間計算時,我們會看到令人鼓舞的結果。查看該模型解決物理問題並解釋其推理的演示。 pic.twitter.com/nl0hyj7zfs

– jeff dean(@jeffdean)

Part of a Broader Gemini Expansion Amid Scrutiny

The rollout of 2.5 Flash fits into Google’s wider, accelerating deployment of AI across its services, joining recent additions like Veo 2 video generation in Gemini Advanced and numerous Gemini integrations into Google Workspace.

Google aims to如Doshi所述,利用此預覽階段來完善模型的“動態思維”,尤其是在實例“在何處或過度思考”的情況下,如Doshi所述。區別仍然是開發人員獲得顆粒狀API控件,而當前的消費者應用程序提供了閃光燈作為單個實驗選擇,默認情況下可能啟用了推理。

,如首次宣布2.5 Flash時所指出的那樣,此公共預覽到達,而無需伴隨的詳細技術或安全報告即可到達。這種缺乏透明度的延續了一種最近的AI版本,吸引了審查,尤其是對於已廣泛使用的模型而言。雖然Google計劃未來的發展,例如本地可用性和利用新的TPU,但直接的步驟涉及收集現實世界中的數據以指導2.5 Flash到達潛在的一般版本。