[論文レビュー] Self-Tuning Deep Reinforcement Learning
この論文では、微分可能クロスバリデーションとメタ勾配を用いて学習中にハイパーパramータを自動的にチューニングする、深層強化学習手法Self-Tuning Actor Critic (STAC) を提案する。STACは、計算リソースの増加なしにサンプル効率を向上させ、2億フレームの学習でAtari 2600における中央値のヒューマン正規化スコアを243%から364%に向上させる。
Reinforcement learning (RL) algorithms often require expensive manual or automated hyperparameter searches in order to perform well on a new domain. This need is particularly acute in modern deep RL architectures which often incorporate many modules and multiple loss functions. In this paper, we take a step towards addressing this issue by using metagradients (Xu et al., 2018) to tune these hyperparameters via differentiable cross validation, whilst the agent interacts with and learns from the environment. We present the Self-Tuning Actor Critic (STAC) which uses this process to tune the hyperparameters of the usual loss function of the IMPALA actor critic agent(Espeholt et. al., 2018), to learn the hyperparameters that define auxiliary loss functions, and to balance trade offs in off policy learning by introducing and adapting the hyperparameters of a novel leaky V-trace operator. The method is simple to use, sample efficient and does not require significant increase in compute. Ablative studies show that the overall performance of STAC improves as we adapt more hyperparameters. When applied to 57 games on the Atari 2600 environment over 200 million frames our algorithm improves the median human normalized score of the baseline from 243% to 364%.
研究の動機と目的
- 複数の損失関数を備えた複雑なアーキテクチャにおいて、手動または自動のハイパーパramータチューニングの必要性を低減すること。
- 学習中にハイパーパramータを自動で適応させることで、サンプル効率と性能を向上させること。
- IMPALAアーキテクチャを拡張し、主損失関数および補助損失関数の最適ハイパーパramータを学習すること。
- オフポリシー学習のトレードオフをバランスさせるために、学習可能なハイパーパramータを備えた新しいリークイービトレース演算子を導入・適応すること。
- より多くのハイパーパramータをチューニングすることで、多様な環境において一貫した性能向上が得られることを示すこと。
提案手法
- ハイパーパramータに関する検証損失の勾配を計算するためのメタ勾配を用い、エンドツーエンドのハイパーパramータ最適化を可能にする。
- 学習中に別個の検証エピソードを必要とせず、ハイパーパramータの性能を評価するために微分可能クロスバリデーションを適用する。
- オフポリシー補正を適応的ハイパーパramータで調整する、学習可能なリークイービトレース演算子を導入する。
- 主損失関数、補助損失、およびビトレース演算子のハイパーパramータを、統合された学習ループ内で同時にチューニングする。
- ハイパーパramータ探索のための追加の環境ロールアウトや計算負荷を回避することで、サンプル効率を維持する。
- ハイパーパramータが微分可能検証指標の性能に基づいて更新されるメタ最適化ループを採用する。
実験結果
リサーチクエスチョン
- RQ1微分可能な手法を用いて、深層強化学習におけるハイパーパramータを学習中に自動的にチューニングできるか?
- RQ2複数のハイパーパramータを自己チューニングすることで、複雑なRLエージェントのサンプル効率と最終的な性能が向上するか?
- RQ3適応的ハイパーパramータを備えた新しいリークイービトレース演算子は、オフポリシー学習の安定性と性能を向上させられるか?
- RQ4自己チューニングエージェントの性能は、固定ハイパーパramータを有するベースラインと比較して、多様な環境で優れているか?
- RQ5チューナブルなハイパーパramータの数を増やすことで、測定可能な性能向上が得られるか?
主な発見
- STACは、2億フレームの学習で、57ゲームにわたるAtari 2600における中央値のヒューマン正規化スコアを243%から364%に向上させる。
- 性能向上は環境にかかわらず一貫しており、チューニング対象のハイパーパramータを増やすほど改善が顕著に観察される。
- 計算リソースの増加なしに、追加の環境インタラクションを必要とせずに、より高い性能を達成する。
- アブレーションスタディにより、より多くのハイパーパramータをチューニングすることで性能向上が顕著になることが確認され、本手法のスケーラビリティが裏付けられる。
- 微分可能クロスバリデーションの使用により、学習中に安定的かつ効果的なハイパーパramータ更新が可能になる。
- 自己チューニングされたリークイービトレース演算子は、オフポリシー学習のトレードオフを効果的にバランスさせ、サンプル効率の向上に寄与する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。