研究チームは深層強化学習(Deep Reinforcement Learning:Deep RL)を用いて、20個の関節を持つヒューマノイドロボットに、簡略化された1対1(1v1)のサッカーゲームをプレイさせる訓練を実施した。
- Advertisement -
まず、個々のスキルを分離して訓練し、次に、セルフプレイの設定でこれらのスキルをエンドツーエンドで構成。その結果、転倒からの復帰、歩行、旋回、キックなど、堅牢でダイナミックな動作スキルを示し、それらの間をスムーズ、安定的、効率的に移行することができた。この結果は、ロボットに直感的に期待される以上のものだったという。
また、ボールの動きを予測したり、相手のシュートをブロックしたりと、ゲームに対する基本的な戦略性も身につけた。このような様々な行動は、小さな報酬のセットから生まれた。エージェントは、シミュレーションで訓練され、実際のロボットにゼロショットで転送された。その結果、モデル化されていない効果やロボットのインスタンス間の変動が大きいにもかかわらず、十分に高い頻度の制御、ターゲットダイナミクスのランダム化、シミュレーションでのトレーニング中の摂動の組み合わせにより、質の高い転送が可能になることがわかった。
また、ロボットは本来壊れやすいものだが、ハードウェアを少し修正し、訓練中の動作を基本的に規則化することで、ロボットは安全で効果的な動作を学習しながら、ダイナミックで機敏な動作をするようになったという。
- Advertisement -
実際、得点のために最適化されたエージェントであっても、実験では、スクリプトで設定されたベースラインよりも156%速く歩き、63%短い時間で立ち上がり、24%速く蹴ることができ、長期的な目標を達成するためにスキルを効率的に組み合わせることができた
出現した行動の例と1vs1のフルマッチは、補足サイトで見ることができる。