QUICK REVIEW

[論文レビュー] Investigating Generalisation in Continuous Deep Reinforcement Learning

Chenyang Zhao, Olivier Sigaud|arXiv (Cornell University)|Feb 19, 2019

Reinforcement Learning in Robotics参考文献 25被引用数 34

ひとこと要約

本論文は、連続制御におけるノイズとドメインシフト下で深層強化学習エージェントが一般化する方法を分析し、トレーニング時のパフォーマンスがしばしばテスト時の一般化を予測できないこと、一般化ベンチマークの必要性を示している。

ABSTRACT

Deep Reinforcement Learning has shown great success in a variety of control tasks. However, it is unclear how close we are to the vision of putting Deep RL into practice to solve real world problems. In particular, common practice in the field is to train policies on largely deterministic simulators and to evaluate algorithms through training performance alone, without a train/test distinction to ensure models generalise and are not overfitted. Moreover, it is not standard practice to check for generalisation under domain shift, although robustness to such system change between training and testing would be necessary for real-world Deep RL control, for example, in robotics. In this paper we study these issues by first characterising the sources of uncertainty that provide generalisation challenges in Deep RL. We then provide a new benchmark and thorough empirical evaluation of generalisation challenges for state of the art Deep RL methods. In particular, we show that, if generalisation is the goal, then common practice of evaluating algorithms based on their training performance leads to the wrong conclusions about algorithm choice. Finally, we evaluate several techniques for improving generalisation and draw conclusions about the most robust techniques to date.

研究の動機と目的

連続 Deep RL における一般化の課題を引き起こす不確実性と変動の原因を特定する。
種とドメインシフト全体で訓練/テスト分割を備えた一般化ベンチマークを開発する。
OpenAI Gym MuJoCo タスクにおいて最先端の Deep RL 手法と提案された一般化技術を評価する。
訓練時のパフォーマンスが一般化を信頼性高く示すかを評価し、堅牢なアプローチを特定する。

提案手法

環境パラメータとノイズの分布（ドメインシフト）の下での RL の一般化を形式化する。
種、ノイズスケール、環境パラメータのシフトにわたる訓練/テスト分割を備えた一般化ベンチマークを提案する。
モデルフリーのポリシー勾配法（TRPO、PPO、DDPG）と改良（エントロピー正則化、SCN、敵対的学習、マルチドメイン学習）を評価する。
テストリターン、期待テストリターン、ノイズ/ドメインシフトスケール上のAUCを含む評価指標を導入する。
ノイズや複数ドメインでの訓練がテスト一般化に与える影響を分析する。

実験結果

リサーチクエスチョン

RQ1最先端の連続制御 RL 法は、観測ノイズ、作用ノイズ、および環境ノイズの下でどのように一般化するか？
RQ2訓練とテスト間の環境パラメータのドメインシフトはポリシーの性能にどう影響するか？
RQ3単純な訓練時の変更（ノイズ、アーキテクチャ変更、ドメインランダマイゼーション）が一般化の課題への頑健性を改善できるか？
RQ4Deep RL において訓練時のパフォーマンスはテスト時の一般化を信頼性高く予測できるか？
RQ5多様なタスクとノイズタイプを横断して最も頑健な一般化を提供する訓練戦略は何か？

主な発見

標準的な連続制御ポリシーはノイズとドメインシフトの下で一般化が乏しく、ノイズやパラメータシフトが増えると性能が低下する。
訓練パフォーマンスは決定論的環境でのテスト一般化を予測しない。不活性で訓練リターンとテスト一般化の間に負の相関があることが多い。
ノイズやマルチドメイン exposure で訓練すると、いくつかのタスクとノイズタイプで一般化が改善されることがあるが、環境によって効果は一貫していない。
小さなネットワークやエントロピー正則化済み PPO（PPO-Ent）は、素の PPO より一般化を改善することが多いが、タスクとノイズタイプで結果は異なる。
タスクを跨いで、一貫して他を上回る単一のアルゴリズムはなく、専用の一般化ベンチマークの必要性を浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。