大容量の視覚言語モデル(VLM)はウェブスケールのデータセットで学習されるため、これらのシステムは視覚や言語のパターンを認識し、異なる言語間で動作することに非常に優れている。しかし、ロボットが同レベルの能力を達成するためには、あらゆる物体、環境、タスク、状況にわたって、ロボットのデータを直接収集する必要がある。
- Advertisement -
この研究は、マルチタスクデモで訓練されたモデルであるRobotic Transformer 1(RT-1)をベースにしており、ロボットデータで見られるタスクとオブジェクトの組み合わせを学習することができる。より具体的には、Google DeepMindの研究は、オフィスのキッチン環境で17カ月にわたって13台のロボットで収集されたRT-1ロボットのデモンストレーションデータを使用した。
RT-2は、汎化能力の向上と、ロボット・データ以外の意味的・視覚的理解を示している。これには、新しいコマンドの解釈や、オブジェクトのカテゴリや高レベルの記述に関する推論など、初歩的な推論を実行してユーザーのコマンドに応答することが含まれる。
また、思考の連鎖推論を取り入れることで、RT-2が、どの物体が即席のハンマーとして使えるか(石)、どの種類の飲み物が疲れた人に最適か(エナジードリンク)を判断するといった、多段階の意味推論を行うことができることを示す。
- Advertisement -
ロボット制御へのVLMの応用
RT-2は、1つまたは複数の画像を入力とし、従来は自然言語のテキストを表すトークン列を生成するVLMをベースにしている。このようなVLMは、視覚的質問応答、画像キャプション付け、物体認識のようなタスクを実行するために、ウェブスケールのデータでうまく訓練されてきた。この研究では、Pathways Language and Image model(PaLI-X)とPathways Language model Embodied (PaLM-E)をRT-2のバックボーンとして使用する。
ロボットを制御するためには、ロボットが行動を出力するように訓練されなければならないという。同社は、言語トークンと同様に、アクションをモデルの出力にトークンとして表現することで、この課題に対処。下の図に示すように、アクションを標準の自然言語トークナイザーで処理できる文字列として記述する。
文字列は、後続のコマンドを実行せずに、現在のエピソードを継続するか終了するかを示すフラグで始まり、エンドエフェクタの位置と回転を変更するコマンド、およびロボットグリッパーの必要な拡張を変更するコマンドが続く。
同社は、RT-1と同じ離散化されたロボットアクションを使用し、それを文字列表現に変換することで、ロボットデータのVLMモデル学習が可能になることを示す。
汎化と創発スキル
RT-2モデルについて、6,000回を超えるロボットの試行を対象に、一連の定性的・定量的実験を行った。RT-2の新たな能力を調査するために、同社はまず、ウェブスケールのデータとロボットの経験から知識を組み合わせる必要があるタスクを探し、記号理解、推論、人間認識の3つのスキルのカテゴリーを定義した。
- Advertisement -
各タスクでは、視覚的意味概念の理解と、その概念を操作するロボット制御の能力が要求された。「テーブルから落ちそうなバッグを拾う」、「バナナを2+1の合計まで移動させる」などのコマンドは、ロボットのデータでは見たことのない物体やシナリオに対してロボットに操作タスクを実行させるもので、操作にはウェブベースのデータから変換された知識が必要だった。
全てのカテゴリにおいて、以前のRT-1モデルや、大規模な視覚データセットで事前学習されたVisual Cortex(VC-1)のようなモデルなど、以前のベースラインと比較して、汎化性能の向上(3倍以上の改善)が観察された。
また、ロボットデータに例があるオリジナルのRT-1タスクから始め、ロボットがVLM事前学習から汎化を学習する必要がある、ロボットが以前に見たことのないオブジェクト、背景、環境を様々な程度で継続した、一連の定量的評価を行った。
RT-2は、ロボットデータで見られる元のタスクの性能を維持し、ロボットによる未知のシナリオの性能をRT-1の32%から62%に向上させた。
さらに、VC-1やReusable Representations for Robotic Manipulation (R3M)のような視覚のみのタスクで事前訓練されたベースラインや、Manipulation of Open-World Objects (MOO)のような物体識別にVLMを使用するアルゴリズムと比較して、大幅な改善が見られた。
オープンソースのロボットタスクの言語テーブルスイートで我々のモデルを評価したところ、シミュレーションで90%の成功率を達成し、BC-Z(72%)、RT-1(74%)、LAVA(77%)などの従来のベースラインを大幅に上回った。
次に、同じモデルを実世界で評価したところ(シミュレーションと実データで訓練されているため)、以下のように、青い立方体以外のオブジェクトが訓練データセットに存在しない、新しいオブジェクトへの汎化能力が実証された。
LLMで使用されている思考連鎖型プロンプトの手法にヒントを得て、同社はロボット制御と思考連鎖型推論を組み合わせることで、単一モデル内で長期的な計画と低レベルスキルの学習を可能にするモデルを試作した。
特に、RT-2の言語と行動を併用する能力を向上させるために、数百の勾配ステップを微調整した。次に、ロボットが行おうとしている行動の目的を自然言語で記述し、次に「行動」と行動トークンを記述する、追加の「計画」ステップを含むようにデータを増強した。
このプロセスにより、RT-2は、ユーザの指示を達成するために必要な中間ステップに関する推論を必要とする、より複雑なコマンドを実行できる。VLMバックボーンのおかげで、RT-2は画像とテキストコマンドの両方から計画を立てることができ、SayCanのような現在の計画・行動アプローチが現実世界を見ることができず、完全に言語に依存しているのに対して、視覚的に根拠のある計画を立てることが可能だという。
ロボット制御の進歩
RT-2は、視覚言語モデル(VLM)を強力な視覚言語行動(VLA)モデルに変換できることを示している。VLAは、VLMの事前学習とロボットデータを組み合わせることで、ロボットを直接制御できる。
PaLM-EとPaLI-Xに基づくVLAの2つのインスタンス化により、RT-2は高度に改善されたロボットポリシーを実現し、さらに重要なことに、ウェブスケールの視覚言語事前学習から継承された、大幅に改善された汎化性能と創発能力をもたらす。
RT-2は、既存のVLMモデルを単純かつ効果的に修正するだけでなく、実世界で多様なタスクを実行するための推論、問題解決、情報解釈が可能な汎用物理ロボットの構築の可能性を示しているとした。