Google heeft gisteren zijn Gemini 2.5 Flash AI-model naar het openbare preview gepusht, waardoor het toegankelijk was via meerdere kanalen: de consumentengerichte Gemini-app en ontwikkelaarsplatforms inclusief de Gemini API via Google Ai Studio en Vertex ai . href=”https://blog.google/products/gemini/gemini-2-5-flash-preview/” target=”_blank”>Google’s announcement as its first “fully hybrid reasoning model,”2.5 Flash uniquely offers developers explicit controls over the AI’s “thinking”process, aiming to provide a flexible tool balancing performance, cost, and latency for high-volume taken. Google positioneert zijn prestatie-to-cost-ratio als het op de”Pareto Frontier”, suggereert een optimaal evenwicht voor bepaalde workloads.
Voor eindgebruikers verschijnt het model in de Gemini-app en website eenvoudigweg als”soldaat (experimentele),”Supplanting the Gemin 2.0 Flash Thinking Model dat experimenteel opdook in december 2024 en nooit is afgestudeerd aan die fase.
Deze 2.5-iteratie wordt beschreven als het aanbieden van een aanzienlijk verbeterde redeneermogelijkheden in vergelijking met de 2.0 flash-generatie, terwijl ze worden ontworpen om sneller en goedkoper te zijn dan de high-end Gemini 2.5 Pro aangekondigd in maart. De versie van de consumenten-app ondersteunt momenteel functies zoals CANVAS van Google voor code-en tekstverfijning, hoewel een Google aangegeven dat diep onderzoeksondersteuning later zal volgen.
Bron: Google
Developers Levers voor AI Redenering en kosten
Het bepalende kenmerk van Gemini 2.5 Flash is het Hybrid Ronds-Hybrid-is. href=”https://developers.googleblog.com/en/start-building-with-mini-25-flash/”target=”_ blank”> Gemini API . Ontwikkelaars kunnen het”denkende”proces volledig uitschakelen voor maximale snelheid of het inschakelen voor complexe zoekopdrachten. Verdere granulariteit komt via verstelbaar Thinking Budgets,” In wezen een cap op computationele token die worden gebruikt voor redenering per query. Analytische taken. Dit niveau van controle zorgt voor een nauwkeurig beheer van de afweging tussen responskwaliteit, latentie en operationele kosten.
Dit aanpassingsvermogen wordt weerspiegeld in de preview API-prijzen : $ 0,15 per miljoen input tokens. De output kost $ 0,60 per miljoen tokens met een gehandicapt denken, stijgen tot $ 3,50 per miljoen tokens wanneer de redenering actief is. Google positions this non-reasoning cost structure competitively against models like OpenAI’s o4-mini, though o4-mini demonstrates superior performance benchmarks at a higher price point.
The pricing structure reinforces Flash’s suitability for high-volume, cost-sensitive uses like summarization, chat apps, captioning, and data extraction, examples highlighted by Google’s Developer Blog .
Bron: Google
Positionering van Flash in de Gemini-familie en de evolutie ervan
Gemini 2.5 Flash werd eerst openbaar besproken op 9 april, geïntroduceerd als een model dat verschilt van de complexe redeneermogelijkheden van 2.5 Pro. Ondanks de focus van Flash op snelheid, behoudt het de grote 1 miljoen tokencontextvenster die kenmerkend is voor de PRO-lijn, waardoor het uitgebreide ingangen kan verwerken.
Het onderliggende”denkende”concept zelf evolueerde uit het experimentele Gemini 2.0-flash-denkmodel van december 2024. Die eerdere iteratie was bedoeld om redeneertransparantie te bieden, deels als reactie op de O1-modellen van Openai. Wat dat experiment betreft, verklaarde Jeff Dean, de hoofdwetenschapper van Google Deepmind, op X:”Gebouwd op de snelheid en prestaties van 2.0 Flash, is dit model getraind om gedachten te gebruiken om de redenering ervan te versterken. En we zien veelbelovende resultaten wanneer we de berekening van de interferentietijd vergroten.”
Wilt Gemini 2.0 Flits in actie zien? Bekijk deze demo waarbij het model een fysica-probleem oplost en de redenering ervan uitlegt. pic.twitter.com/nl0hyj7zfs
-Jeff Dean (@jeffdean) 19 december, 2024
terwijl de expliciete interface”is geen deel van 2.5 flash, de controle van de API is niet vertegenwoordigt de functionele evolutie van dit idee.
onderdeel van een bredere Gemini-uitbreiding te midden van het onderzoek
De uitrol van 2,5 flashfits in Google’s bredere, wijd, in de wijdte van Google, in zijn services in zijn services.
Google wil deze preview-fase gebruiken om het”dynamische denken”van het model te verfijnen op basis van feedback van ontwikkelaars, met name met betrekking tot instanties”waar het te weinig denkt of overdenken”, zoals Doshi al zei. Het onderscheid blijft dat ontwikkelaars granulaire API-bedieningselementen krijgen, terwijl de huidige consumenten-app Flash biedt als een enkele experimentele keuze, waarschijnlijk met redenering standaard ingeschakeld.
Echter, zoals opgemerkt wanneer 2.5 Flash werd aangekondigd, arriveert dit openbare preview zonder begeleidende gedetailleerde technische of veiligheidsrapporten. Dit gebrek aan transparantie zet een patroon voort dat wordt gezien met enkele recente AI-releases, die controle aantrekken, vooral voor modellen die breed beschikbaar worden gemaakt. Terwijl Google toekomstige ontwikkelingen plant zoals beschikbaarheid van on-premises en het benutten van nieuwe TPU’s, omvat de onmiddellijke stap het verzamelen van real-world gegevens om 2.5 Flash naar een potentiële algemene release te begeleiden.