Google Deepmindは、クラウドから無関係の完全な自律性でロボットが動作できるようにする新しいAIモデルを発表しました。 Gemini Robotics On-Deviceという名前の新しいシステムは、ロボットのローカルハードウェアで完全に実行されます。これは、ロボットシステムをより速く、より信頼性が高く、断続的またはインターネット接続なしの環境で機能することができる重要な開発です。これは、実世界のアプリケーションで汎用ロボットを実用的にするための重要なステップです。

Google Deepmindは、バイアームロボット向けに設計された新しいモデルは効率的ではなく、高度に適応性があり、最小限の計算リソースを必要とするように設計されていると説明しています。これは、同社のビジョン言語アクション(VLA)モデルの最初のモデルであり、微調整のために利用可能になり、開発者が50〜100個のデモンストレーションを備えた新しい非常に器用なタスクに適応させることができます。少量の新しいデータから一般化するこの能力は、複雑な設定でロボットの展開を劇的に加速する可能性があります。選択的 move クラウドコンピューティングに固有のネットワークレイテンシを排除するため、リアルタイムロボット工学にとってはデバイスの処理が重要です。物理的な世界と相互作用するロボットの場合、意思決定の2秒の遅延が成功と失敗の違いになる可能性があります。これにより、インスタント応答が交渉不可能なアプリケーションにローカルAIが不可欠になります。

オンデバイスAIのメイントレードオフは、広大なクラウドサーバーよりもコンピューティングパワーとストレージが少ないローカルハードウェアの固有の制限です。この課題は、業界全体でさまざまな戦略的賭けにつながりました。たとえば、図AIは、Googleの新しいシステムと同様に、2月にロボット工学最適化Helix AIモデルを導入しました。これは、埋め込みGPUで完全に実行されます。 Google独自の戦略が進化しました。 3月に導入されたフラッグシップのGemini Roboticsプラットフォームは、ハイブリッドアプローチを使用しています。新しいオンデバイスモデルは、自律性が最も重要なシナリオに専用のソリューションを提供します。 Target=”_ blank”> 2024年に3倍になり、12億ドル、激しい競争の合図。 国際ロボット連盟厳格なプログラミングではなく経験。 GoogleとFigure AI Champion On-Device Speedが、最近、ビデオから物理的常識を学ぶオープンソースの「ワールドモデル」であるV-Jepa 2を最近リリースしました。これらのモデルにより、AIは内部シミュレーションを実行して作用する前に「考える」ことができ、物理的な世界でそれらを試みる前に、マシンに「シミュレートされたスペースでの動きと相互作用を計画」させます。この方法は、物理学の内部理解を構築することに焦点を当てており、予測不可能な人間の環境をナビゲートできるロボットを作成するための別の道を提供します。これは、少数のショット学習(FSL)として知られる手法を通じて達成されます。これにより、モデルは非常に少数の例から学習できます。このアプローチでは、新しい概念を迅速に把握するために、数百万のデータポイントを必要とする従来のAIモデルとはまったく対照的です。すべての可能なタスクに広大でラベル付けされたデータセットを収集することは非現実的であり、FSLはゲームチェンジャーです。

Googleは、Gemini Robotics On-Deviceを50〜100個のデモンストレーションで採用できます。同社は、この適応性の具体的な証拠を提供し、モデルは最初にアロハロボット向けに訓練されていましたが、ApptronikによってBi-Arm Franka FR3ロボットとApollo Humanoid Robotに成功したことに注意してください。 Google Deepmindのロボット責任者であるCarolina Paradaとして、

この独自のスタンスは、コミュニティの革新を加速するように設計された戦略であるLlamaモデルを使用して、オープンソースAIにおけるメタの役割とはっきりと対照的です。このオープン性は賞賛されていますが、オープンモデルのパフォーマンスは歴史的にクローズドソースのカウンターパートを追跡してきました。最高のオープンソースモデルは、数か月までに独自のモデルに遅れをとっていますが、そのギャップは縮小しています。このパフォーマンスの違いは、Googleのような企業が開発者がそれに基づいて構築するツールを提供しているにもかかわらず、GoogleがGemini Robotics On-Deviceのリリースを提供するツールを提供しているにもかかわらず、最も高度なテクノロジーを守る理由を説明するのに役立ちます。それは、迅速で人間のような学習における顕著な進歩を紹介しながら、低遅延の自律システムに対する業界の重要なニーズに直接対処します。しかし、モデルの究極の影響は、その技術的能力だけでなく、オープンな研究の共同精神と商業競争の守られた現実との間の戦略的緊張によっても形作られます。