QUICK REVIEW

[論文レビュー] A Study on Overfitting in Deep Reinforcement Learning

Chiyuan Zhang, Oriol Vinyals|arXiv (Cornell University)|Apr 18, 2018

Reinforcement Learning in Robotics参考文献 18被引用数 237

ひとこと要約

この論文は深層強化学習における過適合を系統的に分析し、エージェントが訓練迷路を記憶し、最適な訓練報酬があってもテスト性能が非常に変動しやすいこと、そして一般的な確率性ベースの手法が過適合を検出・防止できない可能性があることを示している。

ABSTRACT

Recent years have witnessed significant progresses in deep Reinforcement Learning (RL). Empowered with large scale neural networks, carefully designed architectures, novel training algorithms and massively parallel computing devices, researchers are able to attack many challenging RL problems. However, in machine learning, more training power comes with a potential risk of more overfitting. As deep RL techniques are being applied to critical problems such as healthcare and finance, it is important to understand the generalization behaviors of the trained agents. In this paper, we conduct a systematic study of standard RL agents and find that they could overfit in various ways. Moreover, overfitting could happen "robustly": commonly used techniques in RL that add stochasticity do not necessarily prevent or detect overfitting. In particular, the same agents and learning algorithms could have drastically different test performance, even when all of them achieve optimal rewards during training. The observations call for more principled and careful evaluation protocols in RL. We conclude with a general discussion on overfitting in RL and a study of the generalization behaviors from the perspective of inductive bias.

研究の動機と目的

深層強化学習エージェントが、訓練迷路から未知の迷路へ、難易度や訓練データの変化の下でどのように一般化するかを調査する。
標準的なRL正則化技術が過適合を防ぐのか、それとも評価時にそれを覆い隠すだけなのかを評価する。
報酬構造のランダム化に直面したとき、RLにおけるニューラルネットワークの記憶能力を特徴づける。
通常タスクとランダム化タスクの両方における一般化性能に対する帰納的バイアス（ネットワークアーキテクチャ）の役割を探る。

提案手法

訓練環境とテスト環境を分離するために、専用のテストワーカーを備えた非同期A3Cフレームワークを使用する。
タスクの難易度と規則性を制御するため、BASIC、BLOCKS、TUNNEL バリアントを備えた設定可能なグリッドワールド迷路を用いる。
訓練迷路にランダム化された報酬摂動を導入し、ノイズ下での記憶と一般化を測定する。
異なる訓練データセットサイズと迷路の難易度に跨って、訓練エピソード報酬とテストエピソード報酬を比較することで過適合を評価する。
記憶と一般化に対する帰納的バイアスの効果を調べるため、MLPとConvNetアーキテクチャを比較する。
トレーニング正則化と評価付加の双方として、正則化手法（random starts、sticky actions、RAND-SPAWN）をテストする。

実験結果

リサーチクエスチョン

RQ1深層RLエージェントはランダムな迷路構成をどの程度記憶できるか、そしてこの記憶化はテスト性能にどのように影響するか。
RQ2一般的な確率性ベースの評価や正則化手法は、深層RLにおける過適合を信頼性高く検出または防止できるか。
RQ3アーキテクチャ（MLP対ConvNet）とタスクの規則性を通じた帰納的バイアスが、深層RLの一般化にどのように影響するか。
RQ4訓練データサイズと迷路の難易度が、深層RLにおける訓練性能とテスト性能の差にどのように影響するか。
RQ5過適合を特定するために、RLの一般化評価を標準化するために必要なフレームワークやプロトコルは何か。

主な発見

エージェントは訓練迷路の大規模な集合を記憶でき、訓練報酬が最適である場合でも訓練とテストの性能差が著しく生じる。
評価時の確率性付加や正則化の追加は、ランダム化された迷路において深層RLの過適合を信頼性高く防止・検出しない。
迷路の難易度が高くなるほど、訓練データが少ないほど、テスト性能は低下する一方、訓練報酬はほぼ最適値に達する。
通常の、空間的不変なタスクにおいてはConvNetはMLPより一般化性能が高い傾向がある一方、十分な容量があればランダムなタスクでも記憶が形成されうる。
ランダム化された報酬下でも記憶能力は持続し、多くの設定で訓練は高い性能を示すがテスト一般化は弱い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。