Google hat gestern sein Gemini 2.5 Flash-AI-Modell in die öffentliche Vorschau gestellt, wodurch es über mehrere Kanäle zugänglich gemacht wurde: die Verbraucher-Gemini-App und Entwicklerplattformen, einschließlich der Gemini-API über Google AI Studio und vertex ai . href=”https://blog.google/products/gemini/gemini-2-5-flash-preview/” target=”_blank”>Google’s announcement as its first “fully hybrid reasoning model,”2.5 Flash uniquely offers developers explicit controls over the AI’s “thinking”process, aiming to provide a flexible tool balancing performance, cost, and latency for Aufgaben mit hoher Volumen. Google positioniert sein Verhältnis von Performance zu Kosten so, dass das Modell für bestimmte Workloads auf ein optimales Gleichgewicht hinweist. 2.0 Flash Thinking-Modell, das im Dezember 2024 experimentell aufgetaucht ist und nie aus dieser Phase abgeschlossen wurde.
Diese 2,5-Iteration wird als im Vergleich zur 2,0-Blitzerzeugung im Wesentlichen verbesserte Argumentationsfunktion beschrieben, während er als schneller und billiger ausgestattet ist als der im März angekündigte High-End-Gemini 2,5 Pro. Die Verbraucher-App-Version unterstützt derzeit Funktionen wie die Leinwand von Google für Code und Textverfeinerung, obwohl ein Google-Unterstützung später angibt. href=”https://developers.googleblog.com/en/start-building-with–Gemini-25-flash/”target=”_ leer”> Gemini-API . Entwickler können den”Denken”-Prozess vollständig umschalten, um eine maximale Geschwindigkeit zu erzielen, oder es für komplexe Abfragen aktivieren. Eine weitere Granularität erfolgt über einstellbar “Denkbudgets”,”
-Kapitals”-Kuschel. zu analytischen Aufgaben. Diese Kontrolle ermöglicht eine präzise Verwaltung des Kompromisses zwischen Antwortqualität, Latenz und Betriebskosten. Die Produktion kostet 0,60 USD pro Million Token, wobei Denkweise behindert sind und bei aktiven Argumentation auf 3,50 USD pro Million Token steigen. Google positioniert diese nicht-renommierte Kostenstruktur konkurrenzfähig gegen Modelle wie O4-Mini von OpenAI, obwohl O4-mini überlegene Leistungsbenchmarks zu einem höheren Preis zeigt. href=”https://developers.googleblog.com/en/start-building-with–Gemini-25-flash/”target=”_ leer”> Google’s Developer Blog .
Quelle: Google
Positionierung von Flash in der Gemini-Familie und ihre Entwicklung
Gemini 2.5 Flash wurde am 9. April zunächst öffentlich erörtert, was als Modell vorgestellt wurde, das sich von den komplexen Argumentationsfähigkeiten von 2,5 Pro unterscheidet. Trotz der Fokussierung von Flash auf Geschwindigkeit behält es die großen 1-Million-Token-Kontextfenster, die für die Pro-Linie charakteristisch sind, und ermöglicht es ihm, umfangreiche Eingänge zu verarbeiten. Diese frühere Iteration zielte darauf ab, die Transparenz von Argumentation zu liefern, teilweise als Reaktion auf OpenAIs O1-Modelle. In Bezug auf dieses Experiment erklärte Jeff Dean, der Chefwissenschaftler von Google Deepmind, auf X: „Auf der Geschwindigkeit und Leistung von 2.0 Flash ist dieses Modell geschult, um Gedanken zu verwenden, um seine Argumentation zu stärken. Wir sehen vielversprechende Ergebnisse, wenn wir die Inferenzzeitberechnung erhöhen. Schauen Sie sich diese Demo an, bei der das Modell ein Physikproblem löst und seine Argumentation erklärt. pic.twitter.com/nl0hyj7zfs
-Jeff Dean (@jeffdean) 19. Dezember, 2024
, während der explizite Interfake”THEIDS ANGEBOT). repräsentiert die funktionale Entwicklung dieser Idee.
Google zielt darauf ab, diese Vorschau-Phase zu nutzen, um das „dynamische Denken“ des Modells auf der Grundlage von Entwickler-Feedback zu verfeinern, insbesondere in Bezug auf Instanzen, in denen „es unter-denken oder zu übergedünnt wird“, wie Doshi erwähnte. Die Unterscheidung bleibt, dass Entwickler detaillierte API-Steuerelemente erhalten, während die aktuelle Verbraucher-App Flash als einzelne experimentelle Wahl bietet, wahrscheinlich mit der standardmäßigen Argumentation. Dieser Mangel an Transparenz setzt ein Muster fort, das mit einigen neueren KI-Veröffentlichungen zu sehen ist und die Prüfung anzieht, insbesondere für Modelle, die weit verbreitet sind. Während Google zukünftige Entwicklungen wie die On-Premise-Verfügbarkeit und die Nutzung neuer TPUs plant, besteht der unmittelbare Schritt darin, reale Daten zu sammeln, um 2.5 Flash zu einer möglichen allgemeinen Veröffentlichung zu führen.