Um seine Smartphone-Dominanz in der physischen Welt zu reproduzieren, hat Google DeepMind den ehemaligen CTO von Boston Dynamics, Aaron Saunders, als Leiter einer neuen Hardware-Engineering-Abteilung eingestellt.
Die Einstellung markiert einen entscheidenden Wandel hin zu einer „Android für Roboter“-Strategie, bei der die multimodale KI von Gemini als universelles Betriebssystem für Maschinen von Drittanbietern dienen wird.
Durch die Einbindung des Architekten hinter den Atlas-und Spot-Robotern versucht DeepMind, die kritischen Probleme zu lösen „Sim-to-Real“-Engpass, der derzeit die verkörperte KI einschränkt und vertikal integrierte Konkurrenten wie Tesla und Figure AI herausfordert.
Das „Android“-Spiel: Ein universelles Gehirn für jeden Körper
DeepMind-CEO Demis Hassabis hat dies ausdrücklich dargelegt Die Robotikstrategie des Unternehmens als Ökosystem spielt eine Rolle und spiegelt das Modell wider, das Android zum weltweit dominierenden mobilen Betriebssystem gemacht hat. Anstatt proprietäre Roboter für Endbenutzer zu bauen, besteht das Ziel darin, eine „Gemini-Basis“ zu schaffen – eine grundlegende KI-Schicht, die in der Lage ist, verschiedene Hardwarekonfigurationen „out-of-the-box“ zu steuern.
In einem Interview mit WIRED Anfang dieser Woche: Hassabis beschrieb die Initiative als „ein bisschen wie ein Android-Spiel … Wir wollen ein KI-System aufbauen, eine Gemini-Basis, die nahezu sofort einsatzbereit und für jede Körperkonfiguration geeignet ist.“ Dieser Ansatz nutzt die multimodalen Fähigkeiten der Gemini-Modelle, die Vision, Sprache und Aktion (VLA) gleichzeitig und nicht in Silos verarbeiten.
Wie Carolina Parada, Head of Robotics, bei der Veröffentlichung des Gemini Robotics SDK im Juni feststellte, stellt das Modell einen bedeutenden Sprung dar, weil „Es schöpft aus Geminis multimodalem Weltverständnis … Man kann auch Code schreiben und auch Bilder generieren. Es kann auch Roboteraktionen generieren.“
Der strategische Fokus liegt jetzt auf einer Zukunft, in der Hardware kommerzialisiert und austauschbar wird, während der Wert der Intelligenzschicht – dem „Gehirn“ – zukommt.
Hassabis betonte, dass er Softwaremargen Vorrang vor Fertigungskomplexität einräumt: „Ich interessiere mich am meisten für den [KI]-Gehirnteil von es.“ DeepMinds jüngste Veröffentlichung des Gemini Robotics SDK und des „Robotics-ER“-Modells (mit Schwerpunkt auf verkörpertem Denken) dient als Entwickler-Toolkit für dieses Ökosystem.
Durch die Entkopplung der Intelligenz vom Gehäuse möchte Google die kapitalintensiven Fallstricke der Hardware-Herstellung vermeiden und gleichzeitig sicherstellen, dass seine KI-Modelle zum Industriestandard werden. Dies spiegelt seinen Ansatz mit Android wider, wo Google das Software-Rückgrat für Samsung, Xiaomi und andere bereitstellt und so effektiv das gesamte Ökosystem belastet, ohne jedes Gerät zu bauen.
Das Hardware-Paradoxon: Warum ein Softwareriese einen Entwickler braucht
Trotz der softwarezentrierten „Android“-Erzählung signalisiert die Einstellung von Aaron Saunders – einem 23-jährigen Veteranen von Boston Dynamics – eine entscheidende Nuance in Googles Ansatz.
Saunders, der als CTO während der Kommerzialisierung von Spot und der Entwicklung des akrobatischen Atlas-Roboters fungierte, bringt umfassendes Fachwissen über die mechanischen Realitäten mit, die reine Softwaremodelle oft ignorieren.
[eingebetteter Inhalt]
Er wurde zum VP of Hardware Engineering ernannt und seine Rolle deutet darauf hin, dass Google eine „Pixel-Strategie“ verfolgt: Referenzhardware bauen, um die Grenzen seiner eigenen Software zu validieren und zu erweitern.
Die Rekrutierung eines Entwicklers befasst sich mit den Hartnäckigen „Sim-to-Real“-Lücke, bei der KI-Agenten, die in perfekten digitalen Simulationen trainiert wurden – wie sie in unserer Berichterstattung über die vorgestellte Gemini-Robotik detailliert beschrieben wurden – scheitern, wenn sie auf Reibung, Sensorgeräusche und physikalische Unvorhersehbarkeit stoßen.
Hassabis prognostiziert, dass „KI-gestützte Robotik in den nächsten Jahren ihren Durchbruch erleben wird, wenn ich das vorhersagen darf“, ein Zeitplan, der eine sofortige Lösung dieser physikalischen Erdungsprobleme erfordert.
Saunders’ Erfahrung mit Hydraulik und Elektrik Die Betätigung bietet ein Gegengewicht zur forschungsintensiven Kultur von DeepMind und beschleunigt möglicherweise den Einsatz von „Deep Think“-Argumentation bei physischen Agenten.
Erfolg beruht auf der Annahme, dass Softwaremodelle ohne eine Rückkopplungsschleife von fortschrittlicher Hardware nicht wirklich ausgereift sein können. So wie das Pixel-Telefon die vollen Fähigkeiten von Android demonstriert, könnte ein von DeepMind entwickelter Referenzroboter die Echtzeit-Argumentation von Gemini 3 Pro in realen Szenarien demonstrieren.
Sensorintegration und Aktuator-Steuerkreise werden wahrscheinlich den Kernschwerpunkt der Abteilung bilden, damit Gemini die Welt „fühlen“ und nicht nur sehen kann. Diese physische Verankerung ist für die kürzlich von Google vorgestellten „Deep Think“-Fähigkeiten von wesentlicher Bedeutung, die erfordern, dass ein Agent mehrstufige Aktionen plant und sich in Echtzeit an Umgebungsrückmeldungen anpasst.
Commoditization Wars: Unitree, Tesla und das Rennen um die Skalierung
Saunders schließt sich an, während der Markt für Robotik-Hardware einen gewaltsamen Wandel in Richtung Kommerzialisierung durchläuft, angeführt von chinesischen Herstellern. Unitree hat sich zum größten Anbieter von Vierbeinsystemen entwickelt und liefert im Zeitraum 2023–2024 durch aggressive Preisunterbietung etwa die zehnfache Anzahl an Vierbeinsystemen.
Dieses Volumen überschwemmt den Sektor mit erschwinglichen Fahrgestellen bestätigt Googles Software-First-Wette: Wenn Roboterkörper billig und reichlich vorhanden werden, wird das Unterscheidungsmerkmal zur Intelligenz, die sie antreibt. Allerdings sieht sich Google starker Konkurrenz durch vertikal integrierte Konkurrenten wie Tesla (Optimus) und Figure AI ausgesetzt, die sowohl das Gehirn als auch den Körper steuern, um die Leistung zu optimieren.
Während Konkurrenten wie Tesla ein geschlossenes Ökosystem anstreben, bestreitet Meta auch die horizontale Ebene. Das Unternehmen veröffentlichte diesen Sommer V-JEPA 2, ein Open-Source-„Weltmodell“, das entwickelt wurde, um Robotern durch Videobeobachtung den gesunden Menschenverstand beizubringen.
Ingenieure wetteifern darum, den Datenengpass zu lösen; Wie der NVIDIA-Forscher Jim Fan anmerkt, ist die Simulation von entscheidender Bedeutung, denn „eine Stunde Rechenzeit verleiht einem Roboter zehn Jahre Trainingserfahrung. So konnte Neo im Matrix Dojo im Handumdrehen Kampfkünste erlernen.“
Die Rekrutierungskämpfe haben sich von der Einstellung reiner ML-Forscher hin zur Abwerbung von Führungskräften verlagert, die verkörperte Produkte liefern können, was der Krieg Anfang des Jahres durch Talente bewiesen hat.
Im Kern basiert die Strategie von DeepMind auf der Glaube, dass das „Gehirn“ letztendlich der wertvollste Bestandteil des Roboters sein wird. Durch die Verpflichtung einer Führungskraft, die den „Körper“ besser versteht als fast jeder andere, sichert Google seine Chancen ab und stellt sicher, dass seine Software nicht durch Hardware eingeschränkt wird, die es nicht versteht.