Google hat das KI-Wettrüsten an diesem Dienstag mit der Veröffentlichung von Gemini 3 Pro und einer neuen Codierungsplattform, Google Antigravity, eskaliert. Mit Spitzenergebnissen gegenüber dem GPT-5.1 von OpenAI bei wichtigen Argumentationstests positioniert das Unternehmen sein neuestes Modell als Werkzeug für autonome Planung und nicht nur für die Textgenerierung.
Der Start erfolgt sofort für Entwickler über AI Studio und Vertex AI und führt „Deep Think“-Funktionen ein, die zur Lösung komplexer Probleme entwickelt wurden. Dieser Schritt zielt darauf ab, Softwarearbeit von der manuellen Codierung auf eine Zusammenarbeit zu verlagern, bei der KI-Agenten die schwere Arbeit übernehmen.
„Gemini 3 ist unser intelligentestes Modell, das Ihnen hilft, jede Idee zum Leben zu erwecken“, sagte Sundar Pichai, CEO von Google und Alphabet.
Benchmarks und der „Deep Think“-Vorteil
Die von Google DeepMind veröffentlichten Leistungsmetriken deuten auf einen erheblichen Sprung in den Denkfähigkeiten hin. Gemini 3 Pro führt jetzt die LMArena-Bestenliste mit einem Ergebnis von 1501 Elo an, einer in der Community weithin anerkannten Kennzahl zur Messung der realen Modellleistung.
Vor allem behauptet Google, dass das Modell GPT-5.1 bei „Humanity’s Last Exam“ (HLE) übertrifft, einem strengen Maßstab für akademisches Denken.
„Gemini 3 Pro ist jetzt Googles fortschrittlichstes Modell für komplexe Tests.“ Aufgaben und kann riesige Datensätze verstehen, die Probleme aus verschiedenen Informationsquellen herausfordern“, erklärte Demis Hassabis, CEO von Google DeepMind.
Quantitativ erreicht Gemini 3 Pro einen Wert von 37,5 % bei HLE ohne Tools, verglichen mit GPT-5.1, der laut Gemini 3-Modellkarte. Beim GPQA Diamond-Benchmark, der wissenschaftliche Erkenntnisse testet, erreicht es 91,9 %.
Diese Zahlen untermauern die Behauptung von Google, dass das Modell nicht nur Text generiert, sondern sich auch auf „Doktor-Niveau“ einlässt.
Um diese Grenzen weiter zu verschieben, führt Google außerdem „Deep Think“ ein, einen speziellen Argumentationsmodus, den es diesen August erstmals für Gemini 2.5 vorgestellt hat. Deep Think befindet sich derzeit in der Sicherheitsprüfung und soll in den kommenden Wochen für Ultra-Abonnenten freigegeben werden. Es ist für erweiterte Problemlösungen konzipiert.
Es erreicht eine beispiellose 45,1 % auf ARC-AGI-2 mit verifizierter Codeausführung und demonstriert damit die Fähigkeit, neuartige, abstrakte Herausforderungen zu bewältigen, die Standardmodelle oft überfordern.
Dieser Fokus auf das Denken steht in direkter Verbindung zu den jüngsten Durchbrüchen von Google DeepMind. Anfang dieses Monats veröffentlichte das Labor Forschungsergebnisse zu AlphaEvolve, einem KI-System, das mathematische Entdeckungen beschleunigt, und stellte SIMA 2 vor, einen Agenten, der sich in 3D-Umgebungen selbst trainieren kann.
Deep Think scheint die zugrunde liegenden Fortschritte dieser Forschungsprojekte umzusetzen und spezialisierte Überlegungen in ein Allzweckmodell zu integrieren.
Antigravity: Eine Agent-First-Entwicklungsplattform
Entwickler erhalten sofortigen Zugang zu einem neuen Paradigma mit der Einführung von Google Antigravity. Diese integrierte Entwicklungsumgebung (IDE) ist jetzt für MacOS, Windows und Linux verfügbar und wurde speziell für Agenten-Workflows entwickelt.
Im Gegensatz zu herkömmlichen Codierungsassistenten, die Snippets innerhalb eines vorhandenen Editors vorschlagen, ermöglicht Antigravity Benutzern die Verwaltung autonomer Agenten. Diese Agenten planen und führen Aufgaben gleichzeitig über den Editor, das Terminal und den Browser aus.
[eingebetteter Inhalt]
Indem Google die Agenten auf eine dedizierte Oberfläche hebt, möchte Google die Reibung beim Kontextwechsel verringern. Die Plattform führt eine „Mission Control“-Ansicht ein, in der Benutzer mehrere Agenten gleichzeitig überwachen können.
Diese Agenten generieren detaillierte Artefakte – Codeausschnitte, Unterschiede und Ausführungsprotokolle –, die es dem menschlichen Architekten ermöglichen, die Logik vor der endgültigen Festlegung zu überprüfen.
Agenten können ihren eigenen Code unabhängig validieren, Tests ausführen und Lösungen ohne ständiges menschliches Eingreifen iterieren. Dieser „Agent-First“-Ansatz steht im Einklang mit den jüngsten Branchentrends hin zur autonomen Softwareentwicklung, bei der der Entwickler eher als Architekt denn als Schreibkraft agiert.
Das System ist eng mit Gemini Computer Use-Modellen für die Browsersteuerung gekoppelt, sodass Agenten in Echtzeit nach Dokumentationen suchen oder Web-Apps debuggen können.
Die Integration geht über die neue IDE hinaus. Gemini 3 Pro ist jetzt in Google AI Studio, Vertex AI und der Gemini CLI verfügbar und stellt sicher, dass bestehende Produktionsabläufe sofort von den erweiterten Funktionen des Modells profitieren können. Benutzer von Android Studio werden ebenfalls erleben, wie diese Funktionen eingeführt werden und so die Entwicklung mobiler Apps mit Agentic Coding ergänzen.
„Vibe Coding“ und die Entwicklung der Suche
Über die IDE hinaus treibt Google das Konzept des „Vibe Coding“ voran, bei dem natürliche Sprache zur primären Syntax wird. In Google AI Studio kann Gemini 3 Pro jetzt vollständig interaktive Webanwendungen aus einer einzigen Eingabeaufforderung generieren. Es verwaltet die komplexe Orchestrierung von HTML, CSS und JavaScript hinter den Kulissen.
Nicht-Entwickler können funktionale Prototypen erstellen, indem sie einfach eine gewünschte „Atmosphäre“ oder Funktionalität beschreiben, anstatt Syntax zu schreiben. Eine vom Unternehmen hervorgehobene Demo zeigte ein Retro-Raumschiffspiel, das vollständig auf einer Beschreibung in natürlicher Sprache basiert, wobei das Modell die Spiellogik verwaltet und Zero-Shot rendert.
[eingebetteter Inhalt]
Diese Funktion erstreckt sich auf die Verbrauchersuche. Der „KI-Modus“ in der Google-Suche nutzt jetzt Gemini 3, um dynamische, interaktive Layouts im Handumdrehen zu erstellen.
Ein multimodales Ökosystem
Die Veröffentlichung von Gemini 3 Pro folgt auf das Oktober-Update auf Veo 3.1, das granulare Objekteinfügung und umfangreichere Audio-Tools in die Videogenerierungssuite von Google einführte.
Die Synergie zwischen diesen Modellen deutet auf eine Zukunft hin, in der Gemini 3 komplexe multimodale Aufgaben orchestrieren könnte und Veo anweist, Video-Assets zu generieren, während der zugehörige Code und das zugehörige Skript geschrieben werden.
„Gemini 3 erfüllt drei entscheidende Aspekte für Agent Opus: Geschwindigkeit, Präzision und Zuverlässigkeit, verwaltet das Denken über lange Kontexte und nutzt granulare Tools ohne die üblichen Fallstricke von Halluzinationen“, sagte Jay Wu, Mitbegründer und CTO von OpusClip.
Auch das Videoverständnis hat sich massiv verbessert. Gemini 3 Pro erzielt beim Video-MMMU-Benchmark eine Punktzahl von 87,6 %, was auf eine hohe Kompetenz bei der Analyse und Argumentation von Videoinhalten hinweist. Diese Fähigkeit ist für das von Google angepriesene „multimodale Verständnis“ von entscheidender Bedeutung und ermöglicht es dem Modell, lange Videoeingaben für Aufgaben wie Sportanalysen oder wissenschaftliche Beobachtungen zu verarbeiten. Zu den bereitgestellten Beispielen gehören die Analyse der Pickleball-Form oder die Visualisierung des Plasmaflusses in einem Tokamak-Reaktor.
Preise, Verfügbarkeit und Sicherheitsleitplanken
Die Preisstrukturen spiegeln einen strategischen Wandel wider, um diese erweiterten Funktionen für den Produktionseinsatz zugänglich zu machen. Gemini 3 Pro kostet laut Entwicklerblog 2 US-Dollar pro Million Eingabetoken und 12 US-Dollar pro Million Ausgabetoken für Eingabeaufforderungen unter 200.000 Token. Diese wettbewerbsfähige Preisgestaltung zielt darauf ab, eine breite Akzeptanz bei Unternehmen und Entwicklern zu fördern, die großvolumige Anwendungen erstellen.
Sicherheitsprotokolle bleiben eine zentrale Säule der Veröffentlichung. Google betont, dass Gemini 3 Pro einem umfassenden Red-Teaming unterzogen wurde und bestimmte Markteinführungsschwellenwerte für die Sicherheit von Kindern erfüllt. Die Modellkarte enthält Einzelheiten zu Bewertungen im Rahmen des „Frontier Safety Framework“, insbesondere Tests auf chemische, biologische, radiologische und nukleare (CBRN) Risiken.
Während das Modell „Uplift Level 1“ in CBRN und zeigte Nach Kenntnis der Cybersicherheit wurden die kritischen Schwellenwerte, die einen Bereitstellungsstopp auslösen würden, nicht erreicht. Dieses spezielle Testregime soll verhindern, dass das Modell bei der Erstellung schädlicher Materialien oder Cyberangriffe hilft.
Trotz der aggressiven Einführung erkennt Google Einschränkungen an. Der Wissensgrenzwert des Modells ist Januar 2025, was bedeutet, dass ihm die Kenntnis der Ereignisse der letzten zehn Monate fehlt, sofern sie nicht über den Kontext bereitgestellt werden. Darüber hinaus ist „Deep Think“ zwar vielversprechend, seine verzögerte Veröffentlichung für die breite Öffentlichkeit deutet jedoch darauf hin, dass die Gewährleistung der Sicherheit solch leistungsstarker Argumentationsfähigkeiten eine komplexe Herausforderung bleibt.
Mit dieser Veröffentlichung setzt Google darauf, dass die Zukunft der KI nicht nur in größeren Modellen liegt, sondern in intelligenteren, autonomeren Agenten, die Probleme durchdenken und Aufgaben zuverlässig ausführen können. Während Entwickler beginnen, mit Antigravity und Gemini 3 Pro zu bauen, wird die Branche bald sehen, ob diese Tools das Versprechen einer echten „Agent-First“-Ära einlösen können.