[論文レビュー] Generalization and Regularization in DQN
本論文は Atari 2600 のゲーム flavours を用いた DQN の一般化を評価し、DQN が 訓練 flavour に過適合すること、正則化とファインチューニングによりより一般的で再利用可能な表現が得られ、サンプル効率が改善される可能性を示す。
Deep reinforcement learning algorithms have shown an impressive ability to learn complex control policies in high-dimensional tasks. However, despite the ever-increasing performance on popular benchmarks, policies learned by deep reinforcement learning algorithms can struggle to generalize when evaluated in remarkably similar environments. In this paper we propose a protocol to evaluate generalization in reinforcement learning through different modes of Atari 2600 games. With that protocol we assess the generalization capabilities of DQN, one of the most traditional deep reinforcement learning algorithms, and we provide evidence suggesting that DQN overspecializes to the training environment. We then comprehensively evaluate the impact of dropout and $\ell_2$ regularization, as well as the impact of reusing learned representations to improve the generalization capabilities of DQN. Despite regularization being largely underutilized in deep reinforcement learning, we show that it can, in fact, help DQN learn more general features. These features can be reused and fine-tuned on similar tasks, considerably improving DQN's sample efficiency.
研究の動機と目的
- DQN の一般化を、微妙に異なる Atari 2600 の game flavours (モード/難易度) で評価する。
- DQN が訓練 flavour に対して過適合する傾向を定量化する。
- 訓練中の正則化技術(ドロップアウトと L2)を、 flavours across に対する DQN の性能に適用する。
- 正則化された表現が関連タスクへ再利用・ファインチューニングする際にサンプル効率を改善できるかを調査する。
提案手法
- ALE 内の Atari 2600 flavours (モードと難易度) を用いた一般化テストのプロトコルを導入する。
- デフォルト flavour (m0d0) で 50M フレーム訓練し、他の flavour で評価する。
- 訓練中に最初の四層へドロップアウトを適用し、L2 重み正則化を実施する。ハイパーパラメータをグリッドサーチで選択する。
- 正則化されたポリシーと非正則化ベースラインの性能を flavours across で比較する。
- 事前訓練を正則化してから全ネットワークをファインチューニングする戦略を 2 通り検討する: (i) 全体をファインチューニング、(ii) 初期層のみをファインチューニング。
実験結果
リサーチクエスチョン
- RQ1DQN ポリシーは単一の Atari flavour で訓練した場合、視覚的・ダイナミックに類似した flavour に generalize できるのか?
- RQ2従来の正則化技術はクロス flavour の一般化を改善し得るか、また DQN のより再利用可能な表現を可能にするか?
- RQ3正則化を用いた事前訓練は、ゼロからの学習より新しい flavour でのファインチューニング性能を向上させるか?
- RQ4正則化された表現は関連タスクへの転移時にサンプル複雑性をどの程度低減するか?
主な発見
- DQN ポリシーは flavour を跨いだ一般化が乏しく、訓練 flavour に対して過適合する傾向を複数のゲーム(例: Freeway)で示す。
- 訓練中の正則化(ドロップアウト + L2)は多くのケースで flavour を跨ぐ評価を改善し、サンプル効率を高める可能性があるが、それだけで flavour を跨いだ一般化を保証するものではない。
- 正則化された表現は新しい flavour でのファインチューニングの初期化として有利となり、等価または低い総訓練フレーム数の下でスクラッチ初期化を上回ることが多い。
- 正則化した事前訓練後に全ネットワークをファインチューニングすると、複数のゲーム(特に HERO と Space Invaders)で強い利益をもたらし、学習した一般的な特徴を示唆する。
- 正則化した事前訓練の後に初期層のみをファインチューニングすることも効果があると示され、層ごとの特徴転移性を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。