[論文レビュー] Improving Generalization in Reinforcement Learning with Mixture Regularization
Mixreg は、異なる環境からの観測の混合と補助信号の補間を用いて RL エージェントを訓練し、Procgenでポリシー基盤と価値基盤の方法の両方における一般化を向上させます。
Deep reinforcement learning (RL) agents trained in a limited set of environments tend to suffer overfitting and fail to generalize to unseen testing environments. To improve their generalizability, data augmentation approaches (e.g. cutout and random convolution) are previously explored to increase the data diversity. However, we find these approaches only locally perturb the observations regardless of the training environments, showing limited effectiveness on enhancing the data diversity and the generalization performance. In this work, we introduce a simple approach, named mixreg, which trains agents on a mixture of observations from different training environments and imposes linearity constraints on the observation interpolations and the supervision (e.g. associated reward) interpolations. Mixreg increases the data diversity more effectively and helps learn smoother policies. We verify its effectiveness on improving generalization by conducting extensive experiments on the large-scale Procgen benchmark. Results show mixreg outperforms the well-established baselines on unseen testing environments by a large margin. Mixreg is simple, effective and general. It can be applied to both policy-based and value-based RL algorithms. Code is available at https://github.com/kaixin96/mixreg .
研究の動機と目的
- RL における一般化ギャップを減らすために、訓練データの多様性を増やす。
- 混合観測と監督を介した、RL に対するシンプルだが効果的な正則化を導入する。
- mixreg をポリシー基盤と価値基盤の RL アルゴリズムの両方に適用可能であることを示す。
- Procgen で標準的なデータ拡張手法よりも mixreg がより大きな一般化向上をもたらすことを示す。
提案手法
- 訓練バッチからの2つの観測 s_i と s_j を凸結合して拡張観測を生成する: s̃ = λ s_i + (1−λ) s_j, ただし λ ∼ Beta(α, α)。
- 補間監督 ỹ = λ y_i + (1−λ) y_j (例: 報酬や状態価値)。
- ポリシー基盤手法に mixreg を適用し、標準のポリシー目的を補間項に置換する(例: L̃^PG は混合状態と利得を含む)。
- 価値ベースの手法(例: Rainbow)に mixreg を適用し、ターゲットと損失項を補間観測と報酬に置換する(例: L̃^DQN)。
- 監督信号の混合が観測の混合だけを超えた性能向上にとって重要であることを示す。
- Procgen ベンチマーク上で PPO(ポリシー基盤)と Rainbow(価値基盤)への適用性を示す。
実験結果
リサーチクエスチョン
- RQ1未見のテスト環境で zero-shot generalization の性能を mixreg は改善するか?
- RQ2mixreg は異なる RL アルゴリズム系統やモデルサイズ全体で有効か?
- RQ3mixreg からの一般化向上を駆動するメカニズムは何か(例: より滑らかなポリシー、より良い表現学習)?
主な発見
- Mixreg は 500 レベルの Procgen generalization において PPO のベースラインより大幅に上回る。
- Mixreg は従来のデータ拡張や正則化(例: cutout-color、random crop、batch norm、L2)よりも一貫した利得をもたらす。
- Mixreg は異なるモデルサイズで一般化を改善し、タスク固有のチューニングを必要とせず Rainbow(DQN の派生)にも利得をもたらす。
- 他の正則化手法(例: L2)と組み合わせるとさらに改善を達成する。
- Mixreg の利点は、より滑らかなポリシーの学習とより良い表現学習の両方から来ること、アブレーションおよびファインチューニング分析で示されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。