TRIは、手や指先以上のものを必要とする日常業務を支援するすることを使命としており、研究プラットフォームである「Punyo」は、この使命を体現しているのだとだという。
- Advertisement -
Punyoチームは、腕と胸を使ったかさばる物体の操作に重点を置いており、TRIの他の取り組みである手やグリッパーを使った繊細なロボット操作を補完。真に有能なロボットが、大きくて重く扱いにくい物体の操作を支援できるようにするハードウェアとアルゴリズムの開発を進めている。
人間にとってもロボットにとっても、柔らかいグリップのある皮膚を持ち、体の近くで物体を操作することで、より少ない労力でより重い物体を扱うことが可能になる。しかし、現在のロボットは手だけで重いものを運ぶのが一般的で、非効率的だとする。Punyoは、接触することを恐れず、全身を使って、伸ばした手だけでつかむよりも多くのものを運び、操作するという。
Punyoとは?
PunyoはTRIのロボットの名前だ。日本語の「ぷにょ」は、やわらかくて、かわいくて、たくましいというイメージがある。この言葉には、トヨタが考えるこれからの家庭用ロボットのあるべき姿、つまり、安全で、能力が高く、一緒に働くのが楽しくなるようなロボットという意味が込められているという。このようなロボティクスへのアプローチには様々な形があるが、TRIのビジョンは、家庭で日々の課題に安全に挑戦するために作られたフレンドリーなヒューマノイドだ。
- Advertisement -
Punyoのハードウェア・プラットフォーム
Punyoの手、腕、胸は、接触が感じられるように、適合性のある素材と触覚センサーで覆われている。この柔らかさにより、Punyoは操作するものにフィットし、安定性、摩擦の増加、均一な接触力を実現します。触覚センサーにより、Punyoは物体に制御された力を加えることができ、接触(予期していたもの、予期していなかったもの)を感知し、物体の滑りや衝撃に反応することができる。触覚センシングは、人との対話においても重要である。重い物を持ち上げたり、人を物理的に補助したりする場合、ロボットは自分自身の体を認識し、適切に相互作用する必要がある。
Punyoはソフトロボットと考えられていますが、そのソフトさの根底には、2本の「ハード」なロボットアーム、剛性の高い胴体フレーム、腰部アクチュエータがあります。我々のアプローチは、従来のロボットの精密さ、強さ、信頼性と、空気圧式ソフトロボットシステムのコンプライアンス、耐衝撃性、センシングの簡便さを組み合わせたものである。
Punyoの腕は、肩から手首まで、私たちの骨を覆う肉と同じように、空気で満たされたバブルで覆われている。各気泡はチューブを介して圧力センサーに接続され、気泡の外面にかかる力を感知する。それぞれの気泡(各腕に13個ずつ)は、希望の硬さまで個別に加圧することができ、ロボットアームの表面に約5cmのコンプライアンスを加えることができる。これは、ロボットの大きな表面にコンプライアンスと触覚センシングを追加するための、安価で軽量かつモジュール化されたアプローチである。
腕を覆う気泡は、熱で密閉されたPVCパネルを成形して作られている。1つの大きな気泡がPunyoの手首を覆い、その下にある関節の動きを制限することはない。残りの腕の気泡は、それぞれ2つの部屋からなる6つの小さなリングで、1つは腕の内側に、もう1つは外側にあります。アームを覆う布製のスリーブは、バブルを保護し、ケーブルの引っ掛かりを防ぎ、外側の接触面の素材を調整するためのもの。スリーブはメンテナンスのために簡単に取り外すことができ、美観をカスタマイズする機会にもなる。
Punyoにはグリッパーがないので、指も親指もない。少なくとも、現段階ではないという。その代わり、Punyoには"前足”がある。それぞれの前足は、高摩擦のラテックス製バブルで、中にカメラが入っている(TRIのソフトバブル視覚触覚センサーに基づく、punyo.tech/bubblegripper)。この気泡の内側にはドットパターンが印刷されている。気泡が何かに接触すると、ドットパターンが変形する。内蔵カメラはこの変形を利用して力を推定し、その画像を学習した視覚運動政策に直接送る。
- Advertisement -
全身技能指導のための遠隔操作ツール
Punyoのハードウェアを様々な全身タスクで試してみたという。Punyoは、拡散政策と例誘導強化学習という2つの強力な方法を用いて、コンタクトリッチなポリシーを学習する。ハードウェア上で直接新しいタスクを試し、これらの学習パイプラインに例示的なデモンストレーションを提供するために、全身スキルのための直感的な遠隔操作インターフェースを開発しているという。
昨年TRIが発表したDiffusion Policyは、人間のデモンストレーションを利用して、モデル化が難しいタスクのためのロバストなセンサー運動方針(カメラと触覚フィードバックを利用)を学習する。Example-Guided Reinforcement Learning(EGRL)は、タスクをシミュレーションでモデル化し、ロボットの探索をガイドするために小さなデモンストレーションのセットを必要とする。どちらの手法も、コンプライアンスを利用し、触覚フィードバックを組み込んだロバストなポリシーを生成するという。
把持シナジー・テレオペ
把持やリフティングなど、コアとなる全身操作のタスクについては、ゲームパッドのインターフェイスを介して個別にコントロールする動作である、ハンドベースの把持のシナジーと同様に、これらのスキルをシナジーに分解した。腕の独立した上げ下げと、各腕の把持部の開閉を組み合わせることで、片腕および両腕による把持、再把持、腕の歩行による持ち上げや把持内操作を実現。標準的な低価格のゲームパッドがあれば、実験室でも野外でも、どこでもデモンストレーションを行うことができるという。
階層的操作空間テレオプ
より複雑で精密、あるいは微妙な作業には、前足や肘、胴体の角度を直接コントロールすることが役立つという。これらをコントロールすることで、例えば、前傾姿勢で物を胸に集めたり、片方の腕を物に巻きつけてもう片方の腕を下に置いたり、後傾姿勢で持ち上げたりすることができる。モーションキャプチャーカメラを使って、遠隔操作者の背中、肩、肘、手足の上に置かれたマーカーを追跡し、ロボットの同様のポイント(操作ポイント)に対応させる。遠隔操作者の動作はPunyoにリターゲットされるため、体格に関係なく誰でも操作できる。
遠隔操作や自律拡散ポリシーの展開には、階層的な全身運動制御アプローチを用いる。例えば、遠隔操作では、Punyoの前足が遠隔操作者の前足を確実に追跡できるように、エンドエフェクターのポーズ追跡を最優先タスクとしている。肘のポーズトラッキングは二次的なものとなり、優先順位の高いエンドエフェクタのトラッキングを妨げない限り、Punyoは遠隔操作された肘のポーズを取ることができる。階層的なモーションコントロールフレームワークを使用することで、制約や操作点のトラッキングを追加、削除、調整、再優先することで、遠隔操作インターフェースを素早く反復できる。
階層的なフレームワークは、物理的に反応する動作や人間とロボットの相互作用を探求するためのインターフェースも提供する。例えば、Punyoは偶発的な衝撃を感知すると肘を動かす。腕には冗長な関節があるため、エンドエフェクターの動きを犠牲にすることなく肘を動かすことができる。この制御スキームを使えば、人がタスクの途中でPunyoの腕を押して邪魔にならないようにし、素早く何かをつかむことができる。
人間の例を用いた強化学習のガイダンス
TRIは、シミュレーションでモデル化できるタスクに対して、ロバストな操作ポリシーを達成するために、例誘導強化学習(EGRL)を使用している。タスクのデモンストレーションを提供することで、学習プロセスがより効率的になり、ロボットがタスクを達成するために使用するモーションのスタイルに影響を与えることができるという。伝統的にコンピュータアニメーションのキャラクターをスタイライズするために使われてきたAdversarial Motion Priors(AMP)を使い、強化学習パイプラインに人間の動きの模倣を組み込んでいる。
プラン誘導強化学習
強化学習(Reinforcement Learning)では、トレーニングのためにタスクをシミュレーションでモデル化する必要があるという。そのため、遠隔操作の代わりに、モデルベースのプランナーをデモンストレーションに用いることができる。これをPGRL(Plan-Guided Reinforcement Learning)と呼ぶ。プランナーを利用することで、遠隔操作が困難な長ホライズンのタスクも可能になる。
また、任意の数のデモを自動生成できるため、人間の入力に依存するパイプラインを減らすことができ、Punyoが処理できるタスク数を拡大するための一歩となる。この機能は、いつの日かPunyoが自ら新しいスキルを学習することを可能にするかもしれないという。
最先端のモデルベースプランナーは、複雑な接触シーケンスを持つモーションプランを作成することができるが、クローズドループ方式でオンラインで使用できるほど高速ではない。さらに、モデルの不正確さや仮定のために、シミュレーションでも物理的に実現可能なプランにならないこともある。そのため、ロボットのハードウェアでオープンループを実行した場合、意図したとおりに目標物を操作できない可能性が高い軌道が残ることになる。しかし、例誘導型強化学習を使って、この大まかな軌道を実現可能なフィードバック・ポリシーに変えることができる。
TRIは、多くの断続的なコンタクトを持つロングホライズンビヘイビアを合成するために、コンタクトインプリシットプランナーを使用するという。このプランナーは、グローバルな接触推論を可能にするためにいくつかの仮定を置いており、その出力がハードウェア上で直接機能することを妨げている。
しかし、その軌跡は、EGRLパイプラインに必要な動作と接触シーケンスの素晴らしいデモンストレーションとなるとしている。タスクの目的、領域のランダム化、そしてモーション探索を導くためのこの大まかなデモンストレーションがあれば、Punyoはハードウェア上で困難なタスクをロバストに実行するために、モーションプランの後を取る閉ループポリシーを効率的に学習することができる。
安全で生産的なコラボレーションを目指して
TRIなどでは手先の器用さが急成長しているが、今日のロボットや操作戦略では、多くの作業や技能が手の届かないものになっている。人間の手には大きすぎる物体、腕で安定させなければならない物体の山、片腕で保持しながら他の物体を操作すること、狭い空間や人の周りで安全に操作する能力など、やるべきことはまだまだある。グリッパーベースの器用さと並行して、全身マニピュレーションのためのハードウェア、知識、データセットを開発することは、多様な能力を持つマニピュレーション・プラットフォームを作るために重要であるだとしている。
ロボットの胸部、腕部、その他の体表面のロックを解除して操作することは、力学的に有利である。コンプライアンスや摩擦と相まって、ロボットはより少ないエネルギーで大きな物体を保持し、操作することができる。柔らかいため、衝撃を吸収することができ、ロボットと周囲の人々の安全を守ることができる。触覚センシングを追加することで、接触力を綿密に監視・制御することができ、穏やかで複雑、インタラクティブで安定した操作につながるという。
TRIのPunyoチームは、この問題を解決するために作られた。ソフトロボティクス、接触リッチプランニングと学習、触覚センシング、人間とロボットのインタラクションのエキスパートとして、ロボットと人が安全に、生産的に、そして楽しく隣り合わせで協働する未来を目指していく方針だ。