Google Deepmindは、クラウドから無関係の完全な自律性でロボットが動作できるようにする新しいAIモデルを発表しました。 Gemini Robotics On-Deviceという名前の新しいシステムは、ロボットのローカルハードウェアで完全に実行されます。これは、ロボットシステムをより速く、より信頼性が高く、断続的またはインターネット接続なしの環境で機能することができる重要な開発です。これは、実世界のアプリケーションで汎用ロボットを実用的にするための重要なステップです。
Google Deepmindは、バイアームロボット向けに設計された新しいモデルは効率的ではなく、高度に適応性があり、最小限の計算リソースを必要とするように設計されていると説明しています。これは、同社のビジョン言語アクション(VLA)モデルの最初のモデルであり、微調整のために利用可能になり、開発者が50〜100個のデモンストレーションを備えた新しい非常に器用なタスクに適応させることができます。少量の新しいデータから一般化するこの能力は、複雑な設定でロボットの展開を劇的に加速する可能性があります。選択的
googleの国際ロボット連盟厳格なプログラミングではなく経験。 GoogleとFigure AI Champion On-Device Speedが、最近、ビデオから物理的常識を学ぶオープンソースの「ワールドモデル」であるV-Jepa 2を最近リリースしました。これらのモデルにより、AIは内部シミュレーションを実行して作用する前に「考える」ことができ、物理的な世界でそれらを試みる前に、マシンに「シミュレートされたスペースでの動きと相互作用を計画」させます。この方法は、物理学の内部理解を構築することに焦点を当てており、予測不可能な人間の環境をナビゲートできるロボットを作成するための別の道を提供します。これは、少数のショット学習(FSL)として知られる手法を通じて達成されます。これにより、モデルは非常に少数の例から学習できます。このアプローチでは、新しい概念を迅速に把握するために、数百万のデータポイントを必要とする従来のAIモデルとはまったく対照的です。すべての可能なタスクに広大でラベル付けされたデータセットを収集することは非現実的であり、FSLはゲームチェンジャーです。 Googleは、Gemini Robotics On-Deviceを50〜100個のデモンストレーションで採用できます。同社は、この適応性の具体的な証拠を提供し、モデルは最初にアロハロボット向けに訓練されていましたが、ApptronikによってBi-Arm Franka FR3ロボットとApollo Humanoid Robotに成功したことに注意してください。 Google Deepmindのロボット責任者であるCarolina Paradaとして、
この独自のスタンスは、コミュニティの革新を加速するように設計された戦略であるLlamaモデルを使用して、オープンソースAIにおけるメタの役割とはっきりと対照的です。このオープン性は賞賛されていますが、オープンモデルのパフォーマンスは歴史的にクローズドソースのカウンターパートを追跡してきました。最高のオープンソースモデルは、数か月までに独自のモデルに遅れをとっていますが、そのギャップは縮小しています。このパフォーマンスの違いは、Googleのような企業が開発者がそれに基づいて構築するツールを提供しているにもかかわらず、GoogleがGemini Robotics On-Deviceのリリースを提供するツールを提供しているにもかかわらず、最も高度なテクノロジーを守る理由を説明するのに役立ちます。それは、迅速で人間のような学習における顕著な進歩を紹介しながら、低遅延の自律システムに対する業界の重要なニーズに直接対処します。しかし、モデルの究極の影響は、その技術的能力だけでなく、オープンな研究の共同精神と商業競争の守られた現実との間の戦略的緊張によっても形作られます。