QUICK REVIEW

[論文レビュー] Emergence of Locomotion Behaviours in Rich Environments

Nicolas Heess, Dhruva Tb|arXiv (Cornell University)|Jul 7, 2017

Reinforcement Learning in Robotics参考文献 15被引用数 668

ひとこと要約

本論文は、多様で豊かな訓練環境が、シンプルな報酬から頑健な移動スキルの出現を促すことを、複数の体と地形に跨るスケーラブルな分散PPOアルゴリズムを用いて示している。カリキュラム様の地形と多様な地形が、明示的な行動特異的報酬を用いなくても、学習速度と頑健性を向上させることを明らかにしている。

ABSTRACT

The reinforcement learning paradigm allows, in principle, for complex behaviours to be learned directly from simple reward signals. In practice, however, it is common to carefully hand-design the reward function to encourage a particular solution, or to derive it from demonstration data. In this paper explore how a rich environment can help to promote the learning of complex behavior. Specifically, we train agents in diverse environmental contexts, and find that this encourages the emergence of robust behaviours that perform well across a suite of tasks. We demonstrate this principle for locomotion -- behaviours that are known for their sensitivity to the choice of reward. We train several simulated bodies on a diverse set of challenging terrains and obstacles, using a simple reward function based on forward progress. Using a novel scalable variant of policy gradient reinforcement learning, our agents learn to run, jump, crouch and turn as required by the environment without explicit reward-based guidance. A visual depiction of highlights of the learned behavior can be viewed following https://youtu.be/hx_bgoTF7bs .

研究の動機と目的

多様な環境で訓練されたとき、単純な報酬信号が複雑な移動挙動を生み出すかを調査する。
地形の多様性とカリキュラム様の難易度進行が学習速度と頑健性に与える影響を評価する。
豊かな環境での高次元連続制御に適した、スケーラブルな強化学習アルゴリズムを開発・検証する。

提案手法

スケーラブルで高次元の連続制御のために、Distributed Proximal Policy Optimization (DPPO) を導入する。
学習を加速させるため、固有受動感覚と外部感覚入力を分離した2サブネットワークのポリシー構造を採用する。
複数の体（Planar Walker、Quadruped、Humanoid）にわたる、簡易な前進報酬と軽量なトルクペナルティを用いる。
多様な地形と障害物を手続き的に生成して、タスクの難易度とカリキュラムのスペクトルを作り出す。
時間を切り詰めたバックプロパゲーションと共有パラメータサーバを用いて、効率的な分散学習を可能にする。
ベンチマークタスクでDPPOをTRPOおよびA3Cのベースラインと比較し、スケーラビリティと再帰ポリシーとの適合性を検証する。

実験結果

リサーチクエスチョン

RQ1多様な環境と組み合わせた単純な前方進行報酬が、専門的な報酬を用いずに、跳躍、屈む、旋回といった出現的な移動スキルを生み出すことができるか？
RQ2カリキュラム様の地形進行と地形の多様性は、学習速度とポリシーの頑健性にどのように影響するか？
RQ3分散PPOフレームワークは、複雑な体と豊かな地形に効果的にスケールし、再帰ポリシーを可能にするか？
RQ4観測されていない地形の変化や撥ねに対する頑健性を示す評価証拠とは何か？

主な発見

DPPOはPlanar Walker、Humanoid、Memory ReacherのベンチマークでTRPOに匹敵する性能を達成し、ワーカー数とともにスケールする。
多様でカリキュラム様の地形で訓練されたエージェントは、タスク固有の報酬設計なしで、跳躍、屈む、旋回といった頑健な移動スキルを発現させる。
カリキュラム様の難易度の上昇は、固定難易度の地形と比較して学習を加速する。
障害物の多い地形での訓練は、観測されていない地形の変動や撥ねに対するポリシーの頑健性を高める。
Humanoidの実験は、地形を超えて定性的に多様で性能の高い歩きを示し、タスクの複雑さが高くてもいくつかの種は堅牢な成功を収める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。