空を自在に舞うドローンは、映像撮影や物流、災害救助など幅広い分野で活躍している。そしてこうした実用的な用途が広がる一方で、人間の目を引きつける「エンターテインメントとしての飛行」、たとえば競技会で披露されるアクロバット飛行や、ドローン群によるドローンショーなども近年急速に増加している。
- Advertisement -
しかしこうしたエンタメ分野で行われるアクロバット飛行は、人間の熟練パイロットによって実現されることが多く、ドローン自体に自律的に行わせるのは難しかった。なぜならこうした動きは、単に「目標地点にたどり着く」といった明確なゴールではなく、「なめらかに見える」や「迫力がある」といった、人間の主観的な好みに大きく左右されるからだ。
![人間の好みから、ドローンが華麗な宙返りを独学する技術[小林啓倫のドローン最前線] Vol.93](https://drone.jp/wp-content/uploads/2500911_kobayashi_01.jpg)
ドローンを自律飛行させる場合、最近はお馴染みAI(人工知能)を活用するのが一般的だ。そして従来のドローン向けAI開発では、飛行の目的を数式で定義し、「正しく飛べば点数を与える」といった手法でAIを学習させてきた。しかし「美しい軌道」や「スタイリッシュな飛び方」を数式で表すことは難しい。結果として、ドローンが人間にとって魅力的な飛行を習得するには限界があった。
今回、チューリッヒ大学の研究チームがこの課題に挑み、「人間の好みを直接学習に取り入れる」という新しい手法を開発、論文として発表している。
- Advertisement -
研究チームはまず、「Preference-based Reinforcement Learning(PbRL)」、日本語にすれば「好みに基づく強化学習」と呼ばれる手法を採用した。これは近年注目を集めているAI開発手法で、文字通り人間の「Preference(好み・選好)」をAIへのフィードバックとして用いるというものである。
研究チームはまず、人間の評価者に、ドローンがシミュレーション内で行った2種類の飛行映像を見せ、「どちらの動きが良いか」を選んでもらった。これを何度も繰り返すと、AIは「人間がどういう動きを好むのか」を少しずつ学び取り、その結果を「報酬モデル」として蓄積する。これを使ってドローンを訓練すると、人間の感覚に寄り添った飛び方が身についていくのである。
重要なのは、評価者が必ずしもドローンの操縦に熟練している必要がない点だ。自分ではできなくても、「こちらの方がかっこいい」と判断できれば十分。まるで子供が大人に「なんとなくこっちが好き」と言われながら技を磨くように、ドローンは人間の感覚を頼りに技を磨いていくのである。
シミュレーションから現実へ
研究チームはさらに一歩進め、「REC(Reward Ensemble under Confidence)」という改良版の手法を開発した。これは、複数の報酬モデルを同時に走らせ、人間の評価に不確かさ(迷い)が含まれている場合にも対応できるようにしたものだ。
たとえば、2つの飛行の優劣を人が判断しにくいケースがあるとしよう。評価者が「うーん、どっちも悪くない」と迷ったとき、従来の仕組みでは学習が不安定になりやすかった。RECでは、評価が揺れる部分を「不確実な領域」として認識し、その情報を活かして学習を安定させる。結果として、よりスムーズに人間の好みを反映できるようになった。
- Advertisement -
実際、シミュレーション環境で比較したところ、従来手法が人間の意図に沿った飛行を再現できたのはおよそ55%にとどまったのに対し、RECは88%に達したという。数値だけ見ても、人間の感覚にずっと近い動きが学習できていることが分かる。
さらにこの成果が画期的なのは、単なるコンピューター上の実験にとどまらなかった点だ。研究チームは実際の小型ドローンに学習結果を移し、現実世界で宙返りや縦のフィギュアエイト(8の字飛行)といったアクロバット飛行を成功させた。つまり、操縦の専門家が設計した複雑な指示を一切使わず、ただ人が「こっちがいい」と答えたデータだけをもとに技を習得したのである。これは、AIが人間の感覚を直接取り込み、実用的な技術へと転化できることを示した大きな一歩だ。
![人間の好みから、ドローンが華麗な宙返りを独学する技術[小林啓倫のドローン最前線] Vol.93](https://drone.jp/wp-content/uploads/2500911_kobayashi_02.jpg)
この手法にも課題は残る。人間の評価はどうしても主観的で、同じ映像を見ても人によって判断が異なることがある。また、評価作業そのものに時間がかかるため、効率よくデータを集める仕組みが必要だと研究チームは指摘している。
それでもこの研究は、単にドローンの飛行技術を進化させるだけではなく、広い意味で「AIが人間の感覚に応じた制御を可能にする手法」へと発展し得るものだろう。たとえば車の自動運転が「安全に目的地へ着く」だけでなく、「乗っていて酔いにくい」「滑らかな走行で快適」といった人の感覚に寄り添う運転を習得できるかもしれない。あるいは、家庭用ロボットが「効率よく片付ける」だけでなく、「人が気持ちよく感じる整え方」を理解するようになるかもしれない。AIがこうした曖昧な感覚を学び取れるなら、私たちの暮らしをより豊かにする新しい道が開けるはずだ。