この機械学習によるアプローチは、既存の手法の安全性と同等かそれ以上でありながら、安定性が10倍に向上しています。つまり、エージェントが目標領域に到達して安定した状態を維持できるという。
- Advertisement -
映画「トップガン」では、トム・クルーズ演じるマーベリックが、若いパイロットを訓練して、一見不可能に見えるミッションに挑む。レーダーで探知されないように、ジェット機を岩だらけの峡谷の奥深くまで飛ばし、岩壁を避けて極端な角度で峡谷から急速に上昇させる。マーベリックの助けを借りて、この人物はパイロットの任務を遂行する
一方、機械では、同じようにパルスを打つような仕事をこなすのに苦労することになる。例えば、自律走行する航空機にとって、目標に向かう最も単純な道筋と、峡谷の壁への衝突を避け、発見されないようにするために必要なこととは相反するものだ。既存のAI手法の多くは、安定化・回避問題と呼ばれるこの対立を克服することができず、安全に目標に到達することができないのだという。
MITの研究者が開発した技術は、は、狭い通路を通る模擬ジェット機を、地面に衝突させることなく効果的に操縦する、というマーベリックも顔負けの実験だ。
- Advertisement -
ウィルソン航空宇宙学助教授で情報・決定システム研究所(LIDS)のメンバーであり、この技術に関する新しい論文の主執筆者であるChuchu Fan氏は次のようにコメントしている。
Fan氏:これは長年の難題でした。多くの人がこの問題に注目してきましたが、このような高次元で複雑なダイナミクスをどのように扱えばよいのかわかりませんでした。
Fan氏は、筆頭著者であるOswin So氏(大学院生)と共に「Robotics, Science and Systems conference」で発表する予定だという。
安定化・回避の課題
複雑な安定化・回避問題に取り組む多くのアプローチは、システムを単純化することで単純な計算で解けるようにするが、単純化した結果は現実世界のダイナミクスに耐えられないことがよくあるという。
より効果的な手法としては、強化学習がある。強化学習とは機械学習の一種で、ある目標に近づくような行動をしたときに報酬を与え、試行錯誤しながら学習する手法だ。しかし、ここでは「安定した状態を保つ」「障害物を避ける」という2つの目標があり、適切なバランスを見つけるのは面倒なことだという。
- Advertisement -
MITの研究者たちは、この問題を2つのステップに分解した。まず、安定と回避の問題を制約条件付き最適化問題として捉え直した。この問題では、最適化を解くことで、エージェントがゴールに到達し、安定する。つまり、一定の領域内にとどまることができる。制約を加えることで、エージェントが障害物を回避することを保証していると、So氏は説明する。
そして、第2段階として、制約付き最適化問題をエピグラフ形式と呼ばれる数学的表現に再定義し、深い強化学習アルゴリズムを使って解く。碑文形式を用いることで、強化学習を用いる際に他の方法が直面する困難を回避できる。
So氏:しかし、深層強化学習は、最適化問題のエピグラフ形式を解くために設計されているわけではないので、私たちの問題にそのまま差し込むわけにはいきません。私たちのシステムに適した数式を導出する必要があったのです。その新しい導出ができたところで、他の手法で使われている既存の工学的なトリックと組み合わせました。
2位以下はノーポイント
そのアプローチを検証するために、彼らは初期条件を変えた制御実験を何度も行った。例えば、あるシミュレーションでは、自律型エージェントがゴール領域に到達し、その中に留まりながら、衝突しそうな障害物を回避するために思い切った操作をする必要がある。
いくつかのベースラインと比較したところ、安全性を維持しながらすべての軌道を安定させることができたのは、この方法だけだったという。この方法をさらに推し進めるため、映画「トップガン」に登場するような模擬ジェット機の飛行に使用した。ジェット機は、非常に低い高度を保ちながら、狭い飛行通路の中で地表近くの目標物まで安定させる必要があった。
この模擬ジェット機モデルは2018年にオープンソース化されたもので、飛行制御の専門家がテスト課題として設計していたものだ。研究者たちは、自分たちのコントローラーが飛べないようなシナリオを作ることができるだろうか?Fan氏によると、このモデルは複雑すぎて作業が難しく、やはり複雑なシナリオには対応できなかった。
MITの研究者たちのコントローラーは、どのベースラインよりもはるかに優れた方法で、ジェット機の墜落や失速を防ぎつつ、目標に向かって安定させることができたという。
将来的には、この技術は、自律型配送ドローンのような、安全性と安定性の要件を満たす必要がある高度に動的なロボットのコントローラーを設計するための出発点になる可能性がある。また、例えば、雪道で車が横滑りしたときだけアルゴリズムを起動し、ドライバーが安全に安定した軌道に戻れるようにサポートするといった、より大きなシステムの一部として実装することも可能だ。
So氏:人間では対処できないような極端なシナリオをナビゲートすることこそ、彼らのアプローチが真価を発揮する場です。
私たちは、強化学習に安全性と安定性の保証を与えることが、この分野として努力すべき目標だと考えています。このようなコントローラをミッションクリティカルなシステムに導入する際に、私たちが必要とする保証を与えてくれるのです。今回の研究は、その目標を達成するための有望な第一歩だと考えています。
今後、研究チームは、最適化を解く際に不確実性を考慮できるように、この技術を改良したいと考えている。また、モデルのダイナミクスと実世界のダイナミクスにはミスマッチがあるため、このアルゴリズムをハードウェアに導入した場合にどの程度うまく機能するかを調べたいとしている。
ストーニーブルック大学コンピューターサイエンス学部の助教授であるStanley Bak氏は、この研究には参加していないものの、次のようにコメントしている。
Bak氏:Fan教授のチームは、安全性が重要な力学系に対して強化学習のパフォーマンスを向上させました。彼らは、単に目標を達成するのではなく、システムが安全に目標に到達し、無期限にそこにとどまることを保証するコントローラを作成しました。
彼らの改良された定式化によって、空軍研究所(AFRL)の研究者が一部設計した、揚力と抗力の表を持つ非線形微分方程式を組み込んだ17状態の非線形ジェット機モデルを含む、複雑なシナリオに対する安全なコントローラーの生成に成功しました。
この研究は、MITリンカーン研究所のSafety in Aerobatic Flight Regimesプログラムのもと、一部資金提供を受けている。