QUICK REVIEW

[論文レビュー] Quantifying Generalization in Reinforcement Learning

Karl Cobbe, Oleg Klimov|arXiv (Cornell University)|Dec 6, 2018

Reinforcement Learning in Robotics参考文献 20被引用数 195

ひとこと要約

この論文は CoinRun を導入し、手続き的に生成された RL ベンチマークを用いて一般化を定量化し、標準的な学習設定で顕著な過剰適合を明らかにし、アーキテクチャの選択と正則化手法が RL の一般化を改善できることを示します。

ABSTRACT

In this paper, we investigate the problem of overfitting in deep reinforcement learning. Among the most common benchmarks in RL, it is customary to use the same environments for both training and testing. This practice offers relatively little insight into an agent's ability to generalize. We address this issue by using procedurally generated environments to construct distinct training and test sets. Most notably, we introduce a new environment called CoinRun, designed as a benchmark for generalization in RL. Using CoinRun, we find that agents overfit to surprisingly large training sets. We then show that deeper convolutional architectures improve generalization, as do methods traditionally found in supervised learning, including L2 regularization, dropout, data augmentation and batch normalization.

研究の動機と目的

深層 RL において訓練環境とテスト環境を分離することの必要性を促す explicit generalization metrics の必要性を動機づける。
エージェントが大規模な訓練セットに過剰適合することを示し、CoinRun で一般化ギャップを定量化する。
手続き的に生成されたタスク上で、アーキテクチャの選択と正則化技術が RL の一般化に与える影響を評価する。

提案手法

CoinRun を導入する。固定報酬構造を持つ手続き的生成環境でゼロショット一般化を評価する。
さまざまな訓練レベル数で複数のエージェントを訓練し、微調整なしのゼロショットテスト性能を測定する。
CNN アーキテクチャを比較する（Nature-CNN vs. IMPALA-CNN）し、一般化差を評価するために IMPALA-Large へスケールする。
監督あり学習の正則化技術（L2、ドロップアウト、データ拡張、バッチ正規化）を適用し、一般化への影響を評価する。
環境またはポリシーを通じて確率的性を導入する（ε-greedy、エントロピー報酬）ことで、一般化への影響を研究する。
追加の環境（CoinRun-Platforms、RandomMazes）を探求し、過剰適合の所見を裏付ける。

実験結果

リサーチクエスチョン

RQ1RL エージェントは、手続き的に生成されたレベルの異なるセットで訓練とテストが行われる場合、どの程度過剰適合するか。
RQ2CNN のバリアントというアーキテクチャの選択が CoinRun のゼロショット一般化にどのように影響するか。
RQ3正則化手法（L2、ドロップアウト、データ拡張、バッチ正規化）が RL の一般化に与える影響は。
RQ4環境またはポリシーの確率的性を高めると一般化は改善されるのか、どの程度か。
RQ5CoinRun を超える他の手続き的生成タスクにも結果は一般化するのか。

主な発見

訓練レベル数が 4,000 未満の場合、エージェントは実質的な過剰適合を示し、16,000 レベルでもギャップは持続する。
IMPALA-CNN アーキテクチャは、訓練セットとテスト時の両方で Nature-CNN より一般化が良い。
より深いバリアント（IMPALA-Large）は一般化をさらに改善できる。
L2 正則化とドロップアウトは一般化のギャップを縮小し、ドロップアウトを p=0.1、L2 重み w=1e-4 が特に効果的。
データ拡張（Cutout に似たマスキング）とバッチ正規化は一般化を大幅に改善する。
ε-greedy 行動またはエントロピー報酬による確率性の導入は、正則化だけより一般化を改善することが多い。
データ拡張、バッチ正規化、および L2 正則化を組み合わせると、僅かな追加効果が得られる一方、確率性と正則化を組み合わせると一貫して有益とは限らない。
CoinRun-Platforms および RandomMazes における正則化とアーキテクチャの改善は、RL における顕著な過剰適合と一般化の課題を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。