この技術を使えば、自律走行車が滑りやすい路面状況を補正して横滑りを回避したり、ロボット型フリーフライヤーが宇宙空間でさまざまな物体を牽引したり、ドローンが強風にあおられながらもダウンヒルスキーヤーの後を追ったりできるようになる。
- Advertisement -
研究者たちのアプローチは、制御理論からある構造をモデルの学習プロセスに組み込むことで、飛行体の軌道に風の影響を与えるような複雑なダイナミクスを制御する効果的な方法を導き出している。この構造について考えるひとつの方法は、システムを制御する方法を導くヒントとなるものだ。
MIT機械工学科およびデータ・システム・社会研究所(IDSS)のエスター&ハロルド・E・エドガートン助教授であり、情報・意思決定システム研究所(LIDS)のメンバーであるナヴィッド・アジザン氏は、次のようにコメントしている。
アジザン氏:私たちの研究の焦点は、より効果的で安定したコントローラを設計するために活用できる、システムのダイナミクスに内在する構造を学習することです。システムのダイナミクスとこれらのユニークな制御指向構造をデータから共同で学習することで、実世界でより効果的に機能するコントローラを自然に作り出すことができます。
- Advertisement -
学習済みモデルにこの構造を利用することで、研究者たちの技術は、モデルから効果的なコントローラを即座に抽出可能だという。この構造により、研究者たちのアプローチは、他のアプローチよりも少ないデータで効果的なコントローラを学習できる。これにより、学習ベースの制御システムは、急速に変化する環境において、より優れたパフォーマンスをより早く達成することができる。
スタンフォード大学の大学院生である主執筆者のスペンサー・M・リチャーズ氏は、次のようにコメントしている。
リチャーズ氏:この研究は、システムの構造を特定することと、データからモデルを学習することのバランスを取ろうとしています。私たちのアプローチは、ロボット工学者が物理学を使ってロボットの単純なモデルを導き出す方法にヒントを得ています。このようなモデルを物理的に分析すると、制御の目的に役立つ構造が得られることがよくあります。その代わりに、制御ロジックの実装方法を示すデータから、同様に有用な構造を特定しようとするのです。
この論文の追加執筆者は、MIT機械工学および脳・認知科学のジャン=ジャック・スロティーヌ教授と、スタンフォード大学航空宇宙学科のマルコ・パヴォーネ准教授。この研究は、機械学習国際会議(ICML)で発表される予定。
コントローラーの学習
与えられたタスクを達成するためにロボットを制御する最良の方法を決定することは、研究者がシステムのすべてをモデル化する方法を知っていたとしても、難しい問題である。
- Advertisement -
コントローラーとは、例えばドローンが望ましい軌道を描くためのロジックである。このコントローラーは、ドローンが目標に到達するための安定した軌道から外れる可能性のある風の影響を補正するために、ローターの力を調整する方法をドローンに指示する。
このドローンは動的システムであり、時間とともに進化する物理システムである。この場合、ドローンの位置と速度は環境中を飛行するにつれて変化する。このようなシステムが十分に単純であれば、エンジニアは手作業でコントローラーを導き出すことができる。
手作業でシステムをモデリングすることは、本質的にシステムの物理学に基づいたある構造を捉えることになる。例えば、ロボットを微分方程式を使って手作業でモデル化した場合、速度、加速度、力の関係を捉えることになる。加速度は時間の経過に伴う速度の変化率であり、ロボットの質量とロボットに加わる力によって決まる。
リチャーズ氏:ダイナミクスとコントローラーを別個のものとしてデータから学ぼうとする他のアプローチは、より単純なシステムに対して我々が通常行う方法とは、哲学的に少し離れている。私たちのアプローチは、物理学から手作業でモデルを導き出し、それを制御と結びつけることを彷彿とさせます。
構造の特定
MITとスタンフォード大学の研究チームは、機械学習を使ってダイナミクスモデルを学習する技術を開発した。この構造があれば、コントローラーのためにデータを使ってまったく別のモデルを学習するのではなく、ダイナミクス・モデルから直接コントローラーを抽出することができる。
アジザン氏:我々は、ダイナミクスを学習するだけでなく、効果的なコントローラ設計をサポートする制御指向の構造を学習することも不可欠であることを発見した。ダイナミクスの状態依存係数分解を学習する我々のアプローチは、データ効率とトラッキング能力においてベースラインを上回り、システムの軌道を効率的かつ効果的に制御することに成功しています。
このアプローチをテストしたところ、コントローラーは望ましい軌道に忠実に追従し、ベースラインのすべての方法を上回った。学習されたモデルから抽出されたコントローラは、システムの正確なダイナミクスを使用して構築されたグラウンド・トゥルース・コントローラの性能とほぼ一致した。
リチャーズ氏:より単純な仮定をすることで、他の複雑なベースラインアプローチよりも実際にうまく機能するものが得られたのです。
研究者たちはまた、自分たちの手法がデータ効率に優れていることも発見した。例えば、非常に動的なローター駆動車両を、わずか100点のデータで効果的にモデル化することができた。複数の学習済みコンポーネントを使用する手法では、データセットが少ないほど性能の低下が早かった。
この効率性により、ドローンやロボットが急速に変化する状況下で素早く学習する必要がある場合に、この手法が特に有用になる可能性がある。さらに、彼らのアプローチは一般的であり、ロボットアームから低重力環境で動作する自由飛行宇宙船まで、多くの種類の力学系に適用できる可能性がある。
リチャーズ氏:将来的には、より物理的に解釈可能なモデルを開発し、力学系に関する非常に具体的な情報を特定できるようにしたいと考えています。
これによって、より高性能なコントローラーが開発されるかもしれない。
ペンシルバニア大学電気システム工学科のニコライ・マトニ助教授は、次のようにコメントしている。
マトニ氏:その偏在性と重要性にもかかわらず、非線形フィードバック制御は依然として芸術であり、データ駆動型や学習ベースの手法に特に適しています。この論文は、システムダイナミクス、コントローラ、制御指向構造を共同で学習する方法を提案することで、この分野に大きく貢献しています。
私が特にエキサイティングで説得力があると感じたのは、これらの構成要素を共同学習アルゴリズムに統合し、制御指向の構造が学習プロセスにおいて帰納的バイアスとして働くようにしたことです。その結果、効果的で安定したロバストな制御を可能にする本質的な構造を持つダイナミックモデルを出力する、データ効率の良い学習プロセスが実現しました。
この論文の技術的な貢献自体も素晴らしいが、私が最もエキサイティングで重要だと考えるのは、この概念的な貢献です。
同研究の一部は、NASA大学リーダーシップ・イニシアチブとカナダ自然科学・工学研究評議会の支援を受けている。