Google pressade sin Gemini 2.5 Flash AI-modell till offentlig förhandsgranskning igår, vilket gjorde den tillgänglig via flera kanaler: Consumer-Facing Gemini-appen och utvecklarplattformar inklusive Gemini API via Google AI Studio och Vertex ai /p>
4-beskrivning href=”https://blog.google/products/gemini/gemini-2-5-flash-preview/” target=”_blank”>Google’s announcement as its first “fully hybrid reasoning model,”2.5 Flash uniquely offers developers explicit controls over the AI’s “thinking”process, aiming to provide a flexible tool balancing performance, cost, and latency for high-volume uppgifter. Google positions its performance-to-cost ratio as putting it on the “pareto frontier,”suggesting an optimal balance for certain workloads.
For end-users, the model appears in the Gemini app and website simply as “2.5 Flash (Experimental),”supplanting the Gemini 2.0 Flash Thinking Model som dyker upp experimentellt i december 2024 och, aldrig examen från den fasen.
>
Denna 2.5-iteration beskrivs som att erbjuda väsentligt förbättrad resonemangsförmåga jämfört med 2.0-flashgenerationen, samtidigt som den är konstruerad för att vara snabbare och billigare än den avancerade Gemini 2.5-proffs som tillkännagavs i mars. The consumer app version currently supports features like Google’s Canvas for code and text refinement, though a Google indicatedthat Deep Research support will follow later.
Source: Google
Developer Levers for AI Reasoning and Cost
The defining feature of Gemini 2.5 Flash is its hybrid reasoning system, controllable via the Gemini api . Utvecklare kan växla”tänkande”-processen helt för maximal hastighet eller möjliggöra den för komplexa frågor. Ytterligare granularitet kommer via justerbar “Tänkande budgetar,” väsentligen ett mössa på beräkningsbehov som används för att resonera per fråga. till analytiska uppgifter. Denna kontrollnivå möjliggör exakt hantering av avvägningen mellan svarskvalitet, latens och driftskostnader.
Denna anpassningsförmåga återspeglas i förhandsgranskningen API Pricing : $ 0,15 per miljon inmatning tokens. Utgången kostar $ 0,60 per miljon tokens med tänkande funktionshindrade och stiger till $ 3,50 per miljon tokens när resonemanget är aktivt. Google positions this non-reasoning cost structure competitively against models like OpenAI’s o4-mini, though o4-mini demonstrates superior performance benchmarks at a higher price point.
The pricing structure reinforces Flash’s suitability for high-volume, cost-sensitive uses like summarization, chat apps, captioning, and data extraction, examples highlighted by Google’s Developer Blog .
källa: källa: källa: källa: Google
Positioneringsblixten i Gemini-familjen och dess utveckling
Gemini 2.5 Flash diskuterades först offentligt den 9 april, introducerades som en modell som skiljer sig från de komplexa resonemangsförmågorna för 2,5 Pro. Trots Flashs fokus på hastighet behåller den det stora 1 miljon token-kontextfönster som är karakteristiskt för Pro-linjen, vilket gör att den kan hantera omfattande ingångar.
Det underliggande”tänkande”-konceptet i sig utvecklades från den experimentella Gemini 2.0-blinkningsmodellen i december 2024. Den tidigare iterationen syftade till att ge resonemangets transparens, delvis som ett svar på OpenAI: s O1-modeller. När det gäller det experimentet, Jeff Dean, Google DeepMinds huvudforskare, uttalade på X,”Byggt på 2.0 Flashs hastighet och prestanda, är denna modell utbildad för att använda tankar för att stärka dess resonemang. Och vi ser lovande resultat när vi ökar slutsatsen.”
vill se Gemini 2.0 blixt tänkande i action? Kolla in denna demo där modellen löser ett fysikproblem och förklarar dess resonemang. pic.twitter.com/nl0hyj7zfs
-Jeff Dean (@Jeffdean) 19 december 2024
utrullningen av 2,5 flash passar in i Googles bredare, accelererande distribution av AI över sina tjänster, och förenar de senaste tillägg som Veo 2-videogenerering i GEMINI AVANCED och numery GEMINIKTER I AI AIC AV DE SERVIKER. Google strävar efter att utnyttja denna förhandsgranskningsfas för att förfina modellens”dynamiska tänkande”baserat på utvecklaråterkoppling, särskilt när det gäller fall”där det undertänker eller över-tänkningar”, som Doshi nämnde. Skillnaden kvarstår att utvecklare får granulära API-kontroller, medan den nuvarande konsumentappen erbjuder Flash som ett enda experimentval, troligtvis med resonemang som aktiveras som standard. Men som nämnts när 2,5 Flash först tillkännagavs, anländer denna public förhandsvisning utan att följa detaljerade tekniska eller säkerhetsrapporter. Denna brist på transparens fortsätter ett mönster som ses med några nyligen genomförda AI-utgåvor, vilket lockar granskning, särskilt för modeller som görs allmänt tillgängliga. Medan Google planerar den framtida utvecklingen som lokalt tillgänglighet och utnyttjar nya TPU: er, innebär det omedelbara steget att samla in verkliga data för att vägleda 2,5 blixt mot en potentiell allmän utgåva. En del av en bredare Gemini-expansion mitt i granskning