[論文レビュー] Network Randomization: A Simple Technique for Generalization in Deep Reinforcement Learning
本論文は、ランダム CNN レイヤを用いて入力をランダム化する手法を導入し、深層強化学習エージェントを訓練することで、 unseen visual environments への一般化を向上させる不変特徴の獲得を促進する。テスト時の性能を安定化させるために Monte Carlo 推論を用い、CoinRun、DeepMind Lab、Surreal ロボティクスタスク全体で正則化およびデータ拡張のベースラインを上回る。
Deep reinforcement learning (RL) agents often fail to generalize to unseen environments (yet semantically similar to trained agents), particularly when they are trained on high-dimensional state spaces, such as images. In this paper, we propose a simple technique to improve a generalization ability of deep RL agents by introducing a randomized (convolutional) neural network that randomly perturbs input observations. It enables trained agents to adapt to new domains by learning robust features invariant across varied and randomized environments. Furthermore, we consider an inference method based on the Monte Carlo approximation to reduce the variance induced by this randomization. We demonstrate the superiority of our method across 2D CoinRun, 3D DeepMind Lab exploration and 3D robotics control tasks: it significantly outperforms various regularization and data augmentation methods for the same purpose.
研究の動機と目的
- 未_seen visual environments への深層 RL エージェントの一般化の困難さを動機づけ、対処する。
- 入力観測を撹乱するシンプルな訓練時のランダム化手法を提案する。
- ランダム化された入力と任意の特徴マッチングを通じて不変で頑健な表現の学習を促す。
- 2D の CoinRun、3D の DeepMind Lab、3D の Surreal ロボティクスタスクを跨いで一般化性能を評価する。
提案手法
- パラメータ φ を持つランダムネットワーク f を導入して入力を撹乱する: s_hat = f(s; φ)。
- 訓練の各イテレーションで φ を再初期化して、エージェントを多様な低レベル特徴に露出させる。
- s_hat を s の代替として用いたランダム入力ポリシー勾配目的関数で方策を最適化する(Eq. 1)。
- オプションとして、クリーン入力とランダム化入力の隠れ表現間の特徴マッチング損失を含める(Eq. 2)。
- 総損失を L_random = L_random_policy + beta * L_random_FM(Eq. 3)へ結合する。
- Monte Carlo 推論で推定する:π(a|s; θ) を P(phi) から抽出された φ^(m) を M 回サンプルして平均化する(MC積分)。
実験結果
リサーチクエスチョン
- RQ1訓練中のランダム化された入力観測は、未 Seen visual patterns への深層 RL エージェントの一般化を改善するか?
- RQ2ランダム入力撹乱と特徴マッチング損失を結合すると、正則化やデータ拡張だけより不変表現を得られるか?
- RQ3テスト時の MC ベース推論は、ランダム化された入力下での分散と性能にどのように影響するか?
- RQ4視覚スタイルとダイナミクスが異なる 2D および 3D 環境での利得は一貫しているか?
- RQ5提案手法はドメインランダマイズや他の一般化ベースラインと比較してどうか?
主な発見
- 見知らぬ視覚パターンへ対する一般化がタスク全体で大幅に改善された。
- CoinRun 大規模: unseen 成功率が 39.8%(ベースライン)から 58.7% に向上。
- DeepMind Lab: 総報酬が 218.3 ± 99.2 から 358.2 ± 81.5 に向上。
- Surreal ロボティクス: 総報酬が 168.8 ± 155.8 から 356.8 ± 15.4 に向上。
- 約 10 サンプルの MC 推論で、過度な分散を生まず安定した性能向上を提供。
- この手法は、見える環境と見えない環境の両方で、より不変な隠れ表現とより一貫した salient オブジェクトへの注意をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。