物理世界でのスマートフォンの優位性を再現することを目指して、Google DeepMind は、新しいハードウェア エンジニアリング部門の責任者として元 Boston Dynamics CTO の Aaron Saunders を採用しました。
今回の採用は、Gemini のマルチモーダル AI がサードパーティ製マシンのユニバーサル オペレーティング システムとして機能する「ロボット向け Android」戦略への決定的な転換を示しています。
DeepMind は、Atlas および Spot ロボットの背後にあるアーキテクトを導入することで、次のことを目指しています。現在、組み込み AI を制限し、Tesla や Figure AI などの垂直統合型ライバルに対抗する重大な「sim-to-real」ボトルネックを解決します。
「Android」の遊び: あらゆる身体に万能の脳
DeepMind CEO、Demis Hassabis は、Android を世界の主要なモバイル OS にしたモデルを反映して、同社のロボット戦略をエコシステムの戦略として明確に枠組み化しました。エンドユーザー向けに独自のロボットを構築するのではなく、「すぐに使える」さまざまなハードウェア構成を制御できる基礎的な AI レイヤーである「Gemini ベース」を作成することが目標です。
以前の WIRED とのインタビューで今週、ハサビス氏はこの取り組みを「Androidの遊びに少し似ている…私たちは、どんな体の構成でもほぼそのまま使用できる、ジェミニベースのAIシステムを構築したいと考えている」と述べた。このアプローチは、ビジョン、言語、アクション (VLA) をサイロではなく同時に処理する Gemini モデルのマルチモーダル機能を活用しています。
6 月の Gemini Robotics SDK のリリース時にロボット工学部長の Carolina Parada 氏が述べたように、このモデルは大きな飛躍を示しています。 「これは、ジェミニのマルチモーダルな世界の理解を基にしています…コードを書くこともでき、画像を生成することもできます。ロボットの動作も生成できます。」
現在戦略の焦点は、ハードウェアがコモディティ化され交換可能になり、その価値がインテリジェンス層である「脳」に蓄積される未来にあります。
製造の複雑さよりもソフトウェアのマージンを優先し、ハサビス氏は次のように強調しました。 [AI] の脳の一部です。」 DeepMind が最近リリースした Gemini Robotics SDK と「Robotics-ER」モデル (身体的推論に焦点を当てた) は、このエコシステムの開発者ツールキットとして機能します。
Google は、インテリジェンスをシャーシから切り離すことで、ハードウェア製造における資本集約的な落とし穴を回避しながら、自社の AI モデルが確実に業界標準になることを目指しています。これは、Google が Samsung や Xiaomi などにソフトウェア バックボーンを提供し、すべてのデバイスを構築することなくエコシステム全体に事実上負担を課している Android でのアプローチを反映しています。
ハードウェアのパラドックス: ソフトウェアの巨人がビルダーを必要とする理由
ソフトウェア中心の「Android」の物語にもかかわらず、ボストン ダイナミクスで 23 年のベテランであるアーロン サンダースの採用は、重要なニュアンスを示しています。 Google のアプローチ。
Spot の商品化とアクロバティックな Atlas ロボットの開発中に CTO を務めたサンダース氏は、純粋なソフトウェア モデルでは無視されがちな機械的現実に関する深い専門知識をもたらします。
[埋め込みコンテンツ]
ハードウェア エンジニアリング担当副社長に任命された彼の役割は、Google が「ピクセル戦略」を採用していることを示唆しています。つまり、自社ソフトウェアを検証し限界を押し上げるリファレンス ハードウェアを構築するということです。
ビルダーの募集完璧なデジタル シミュレーションで訓練された AI エージェントが、摩擦、センサー ノイズ、物理的予測不可能性に遭遇すると機能しなくなる、永続的な「シミュレーションとリアル」のギャップに対処します。このギャップでは、紹介したジェミニ ロボティクスの記事で詳述したような、完璧なデジタル シミュレーションで訓練された AI エージェントが、摩擦、センサー ノイズ、物理的な予測不可能性に遭遇すると機能しません。
ハサビス氏は、「私が予測するなら、AI を活用したロボット工学は今後 2 年以内に画期的な瞬間を迎えるだろう」と予測しています。このタイムラインには、これらの物理的な接地問題の即時解決が必要です。
サンダースの経験油圧式および電気式の作動を使用することで、DeepMind の研究重視の文化に対するバランスが取れ、物理エージェントでの「Deep Think」推論の展開が加速する可能性があります。
成功は、高度なハードウェアからのフィードバック ループがなければソフトウェア モデルが真に成熟できないという前提にかかっています。 Pixel スマートフォンが Android の全機能を実証するのと同じように、DeepMind が設計したリファレンス ロボットは、現実世界のシナリオで Gemini 3 Pro のリアルタイム推論を示すことができるでしょう。
センサーの統合とアクチュエータ制御ループがこの部門の中核となる可能性が高く、Gemini は世界をただ見るだけでなく「感じる」ことができるようになります。この物理的根拠は、Google が最近発表した「Deep Think」機能にとって不可欠であり、エージェントは複数段階のアクションを計画し、環境フィードバックにリアルタイムで調整する必要があります。
コモディティ化戦争: ユニツリー、テスラ、規模拡大競争
ロボット ハードウェア市場が中国メーカー主導でコモディティ化への激しい移行を経験する中、サンダース氏も加わりました。 Unitree は、四足システムの最大のサプライヤーとして浮上し、積極的な価格引き下げにより、2023 ~ 2024 年の期間に四足ユニットの約 10 倍の数を供給します。
手頃な価格のシャーシを業界に氾濫させており、この量は Google の実績を証明しています。ソフトウェア優先の賭け: ロボット本体が安価で大量に入手できるようになるにつれ、差別化要因はロボットを動かすインテリジェンスになります。しかし、Google は、パフォーマンスを最適化するために脳と身体の両方を制御する Tesla (Optimus) や Figure AI のような垂直統合型のライバルとの厳しい競争に直面しています。
Tesla のような競合他社が閉鎖的なエコシステムを追求する一方で、Meta は水平層でも競争しています。同社はこの夏、ビデオ観察を通じてロボットに物理的常識を教えるように設計されたオープンソースの「ワールド モデル」である V-JEPA 2 をリリースしました。
エンジニアはデータのボトルネックを解決しようと競い合っています。 NVIDIA 研究者のジム ファン氏が述べているように、シミュレーションが鍵となるのは、「1 時間の計算時間でロボットに 10 年間のトレーニング経験が与えられるからです。こうしてネオはマトリックス道場で瞬く間に格闘技を学ぶことができました。」
人材確保の戦いは、純粋な ML 研究者の採用から、体現された製品を出荷できるリーダーの引き抜きへと移行しました。これは、今年初めの人材戦争が証明しています。
DeepMind の戦略の核心は、次のようなものに依存しています。最終的には「脳」がロボットの最も価値のあるコンポーネントになるという信念に基づいています。 Google は、「身体」を他の誰よりもよく理解しているリーダーを確保することで、リスクを回避し、理解できないハードウェアによってソフトウェアが制限されないようにしています。