Google hat Gemini 2.0 Flash Thinking angekündigt, ein experimentelles Argumentationsmodell zur Lösung komplexer Probleme mithilfe mehrerer Datentypen. Das neue Modell ermöglicht es Benutzern, die Schritte zu sehen, die erforderlich sind, um zu einer Antwort zu gelangen, und bietet Einblick in den Analyseprozess.
Gemini 2.0 Flash Thinking ist eine direkte Antwort auf die o1-Argumentationsmodelle von OpenAI, wobei Google Transparenz und Transparenz betont Geschwindigkeit als Hauptmerkmale seines Designs.
Unser bisher durchdachtestes Modell:) https://t.co/xIz3w5dtGJ
— Sundar Pichai (@sundarpichai) 19. Dezember 2024
Begründungsprozess wird Schritt für Schritt gezeigt-Schritt
Ein Schlüsselmerkmal des Gemini 2.0 Flash Thinking liegt der Schwerpunkt darauf, den Argumentationsprozess für Benutzer verständlich zu machen. Dies steht im Gegensatz zu einigen fortschrittlichen KI-Systemen, bei denen der Entscheidungsprozess oft unklar ist.
Im Gegensatz zu den o1-Argumentationsmodellen von OpenAI bietet das neue Modell von Google Benutzern die Möglichkeit, seine kognitiven Schritte über eine Benutzeroberfläche zu verfolgen. Laut der offiziellen Dokumentation von Google bietet der „Denkmodus“ in diesem Modell im Vergleich zum standardmäßigen Gemini 2.0 Flash-Modell stärkere Denkfähigkeiten.
Diese Funktion geht auf das „Black-Box“-Problem ein, das oft mit KI verbunden ist, indem es die Modell mit der Idee, seine Operationen verständlicher zu machen. Erste Beobachtungen deuten darauf hin, dass das Modell Probleme effektiv und schnell lösen kann, die für andere KI-Systeme schwierig waren.
Eingebaute multimodale Verarbeitung
Ein weiteres wichtiges Merkmal Der Vorteil von Gemini 2.0 Flash Thinking liegt in der Fähigkeit, neben Text auch Bildeingaben zu verarbeiten. Während o1 von OpenAI zunächst nur mit Text arbeitete, bevor es später Bildfunktionen hinzufügte, ist das Modell von Google von Anfang an darauf ausgelegt, mehrere Datentypen zu verarbeiten.
Diese integrierte Funktion ermöglicht es dem Modell, komplexe Situationen zu bewältigen, die eine Analyse erfordern verschiedene Arten von Informationen. Das Modell war beispielsweise in der Lage, Rätsel zu lösen, bei denen sowohl Text als auch Bilder verwendet werden mussten, und demonstrierte damit seine Fähigkeit, mit verschiedenen Datenformaten zu arbeiten. Entwickler können derzeit über Google AI Studio und Vertex AI auf diese Funktionen zugreifen .
Benchmark-Ergebnisse
Erste Ergebnisse aus der Chatbot Arena Benchmark-Bestenliste für den getesteten Gemini-2.0-Flash-Thinking-exp-1219 Modell zeigen im Vergleich zu den aufgeführten OpenAi o1-Modellen (o1-preview und o1-mini) eine allgemein bessere Leistung.
Gemini-2.0-Flash-Thinking Nr. 1 in allen Kategorien! pic.twitter.com/mRctNA31B9
– lmarena.ai (ehemals lmsys.org) (@lmarena_ai) 19. Dezember 2024
Gegen o1-preview, Gemini-2.0-Flash-Thinking übertrifft es bei der Gesamtleistung deutlich mit Stilkontrolle, kreativem Schreiben, Befolgen von Anweisungen und längeren Abfragen. Sie erreichen den gleichen Rang in den Bereichen Hard Prompts, Hard Prompts mit Stilkontrolle, Codierung und Mathematik. Gegenüber o1-mini übertrifft Gemini-2.0-Flash-Thinking es deutlich in den Bereichen „Gesamtleistung“, „Gesamt mit Stilkontrolle“, „Hard Prompts“ mit Stilkontrolle, „Kreatives Schreiben“, „Anweisungen befolgen“ und „Länger“. Abfrage. Sie erreichen den gleichen Rang in Programmieren und Mathematik.
Es ist wichtig zu beachten, dass dieser Vergleich nur die „Vorschau“-und „Mini“-Versionen der o1-Modelle umfasst. Die stabilen Release-Versionen von o1 und o1 Pro fehlen in dieser Übersicht, was bedeutet, dass sie keinen Vergleich mit den potenziell leistungsfähigeren stabilen Releases der o1-Modellfamilie widerspiegelt.
Allerdings basierend auf Den verfügbaren Daten zufolge weist Gemini-2.0-Flash-Thinking-exp-1219 ein erheblich stärkeres Leistungsprofil im Vergleich zu den Modellen o1-preview und o1-mini auf.
Details zu Gemini 2.0 Flash Thinking
Gemini 2.0 Flash Thinking ist derzeit als Experiment in Google AI Studio verfügbar. Es basiert auf dem kürzlich veröffentlichten Gemini 2.0 Flash-Modell.
Jeff Dean, Chefwissenschaftler von Google DeepMind, erklärte, dass das Modell „darauf trainiert ist, Gedanken zu nutzen, um seine Argumentation zu stärken“. Er bemerkte auch „vielversprechende Ergebnisse, wenn wir die Berechnungszeit für Inferenzen erhöhen“, und bezog sich dabei auf die Menge an Rechenressourcen, die bei der Verarbeitung von Abfragen verwendet werden.
Wir stellen Gemini 2.0 Flash Thinking vor, ein experimentelles Modell, das seine Gedanken explizit zeigt.
Aufgebaut auf 2.0 Flash Geschwindigkeit und Leistung, dieses Modell ist darauf trainiert, Gedanken zu nutzen, um seine Argumentation zu stärken.
Und wir sehen vielversprechende Ergebnisse, wenn wir die Inferenzzeit erhöhen …
– Jeff Dean (@JeffDean) 19. Dezember 2024
Dean hat auch eine Demo geteilt, in der das Modell ein komplexes physikalisches Problem löste.
Möchten Sie Gemini 2.0 Flash Thinking in Aktion sehen? Schauen Sie sich diese Demo an, in der das Modell ein physikalisches Problem löst und seine Argumentation erklärt. pic.twitter.com/Nl0hYj7ZFS
– Jeff Dean (@JeffDean) Dezember 19, 2024
Das Modell unterstützt eine Kontextlänge von mehr als 128 KB, hat eine Grenze von 32.000 Token für die Eingabe und kann Ausgaben mit einer Länge von bis zu 8.000 Token generieren. Der Wissensstand liegt bei August 2024. Googles Dokumentation besagt dies „Der Thinking Mode ist in der Lage, in seinen Antworten stärkere Argumentationsfähigkeiten zu entwickeln als das Basismodell Gemini 2.0 Flash“, was seine verbesserten analytischen Fähigkeiten hervorhebt.
Derzeit ist der Modell wird in Google AI Studio kostenlos angeboten, die Dokumentation gibt dies jedoch an dass einige Integrationen, wie die Google-Suchfunktion, noch nicht verfügbar sind. Das Modell ist speziell für „multimodale Verständnis-, Argumentations-“ und „Codierungs“-Aufgaben konzipiert.
Konkurrenz mit OpenAIs Premium Angebot
Die Einführung von Gemini 2.0 Flash Thinking erfolgt kurz nachdem OpenAI am 5. Dezember ChatGPT Pro, die Vollversion des o1-Argumentationsmodells, auf den Markt gebracht hat, was den zunehmenden Wettbewerb im Bereich der fortgeschrittenen KI hervorhebt.
Die Einführung von Gemini 2.0 Flash Thinking durch Google erfolgt zu einem Zeitpunkt, an dem OpenAI kürzlich seine Premium-Angebote für erweiterte Argumentationsfunktionen etabliert hat. Während der o1-Pro-Modus von OpenAI die Leistung durch erhöhte Rechenressourcen in den Vordergrund stellt, betont Googles Gemini 2.0 Flash Thinking die Transparenz seines Argumentationsprozesses.
Dieser Unterschied verdeutlicht die gegensätzlichen Strategien, die bei der Entwicklung von KI verwendet werden, wobei sich einige auf die Rechenleistung konzentrieren, während andere das Verständnis und das Vertrauen der Benutzer in den Vordergrund stellen.