QUICK REVIEW

[論文レビュー] Regularization Matters in Policy Optimization

Zhuang Liu, Xuanlin Li|arXiv (Cornell University)|Oct 21, 2019

Reinforcement Learning in Robotics参考文献 47被引用数 18

ひとこと要約

本論文は、連続的制御タスクにおける方策最適化のための従来の正則化手法（L2、L1、ドロップアウト、バッチ正則化など）に関する、初めての包括的な実験的分析を提示する。L2正則化を方策ネットワークに適用すると、特に難易度の高いタスクにおいて性能が顕著に向上することが判明し、エントロピー正則化を上回ることもしばしばある。また、方策ネットワークのみに正則化を施すことが最も効果的であることが示された。

ABSTRACT

Deep Reinforcement Learning (Deep RL) has been receiving increasingly more attention thanks to its encouraging performance on a variety of control tasks. Yet, conventional regularization techniques in training neural networks (e.g., $L_2$ regularization, dropout) have been largely ignored in RL methods, possibly because agents are typically trained and evaluated in the same environment, and because the deep RL community focuses more on high-level algorithm designs. In this work, we present the first comprehensive study of regularization techniques with multiple policy optimization algorithms on continuous control tasks. Interestingly, we find conventional regularization techniques on the policy networks can often bring large improvement, especially on harder tasks. Our findings are shown to be robust against training hyperparameter variations. We also compare these techniques with the more widely used entropy regularization. In addition, we study regularizing different components and find that only regularizing the policy network is typically the best. We further analyze why regularization may help generalization in RL from four perspectives - sample complexity, reward distribution, weight norm, and noise robustness. We hope our study provides guidance for future practices in regularizing policy optimization algorithms. Our code is available at https://github.com/xuanlinli17/iclr2021_rlreg .

研究の動機と目的

深層強化学習の方策最適化における従来のディープラーニング正則化手法（例：L2、ドロップアウト）の有効性を調査すること。
ポリシー・グラデント法における広く用いられるエントロピー正則化とこれらの手法を比較すること。
訓練環境と評価環境が同一である状況下でも正則化が性能向上に寄与するかを検証し、一般化の必要性が必ずしも不要であるという仮定に疑問を呈すること。
方策ネットワークのどの構成要素（方策ネットワーク対価値ネットワーク）を正則化すれば最適な性能が得られるかを特定すること。
正則化が強化学習における一般化性能を向上させる背後にあるメカニズムを、サンプル複雑性、リターン分布、重みノルム、ノイズ耐性の観点から分析すること。

提案手法

SAC、PPO、TRPO、A2Cの4つのポリシー最適化アルゴリズムに対して、L2、L1、ドロップアウト、重みクリッピング、バッチ正則化を実験的に評価する。
正則化を異なる構成要素（方策ネットワーク、価値ネットワーク、または両方）に適用し、MuJoCoベンチマークの複数の連続的制御環境における性能を比較する。
複数の設定でランダムなハイパーパramータサーチを実施し、結果の頑健性を評価する。
正則化手法をベースライン（正則化なし）およびエントロピー正則化と比較する。
正則化が方策ネットワークと価値ネットワークに与える影響を分離するためのアブレーションスタディを実施する。
理論的および実騈的分析を用いて、正則化が訓練ダイナミクス、重みノルム、ノイズ耐性に与える影響を分析する。

実験結果

リサーチクエスチョン

RQ1訓練環境と評価環境が同一である状況下でも、L2 やドロップアウトなどの従来の正則化手法が、連続的制御タスクのポリシー最適化において性能向上に寄与するか？
RQ2異なるポリシー最適化アルゴリズムにおいて、従来の正則化手法とエントロピー正則化の性能はどのように比較されるか？
RQ3ポリシー最適化において、どのネットワーク構成要素（方策ネットワーク対価値ネットワーク）が正則化によって最も利益を受けるか？
RQ4正則化の有効性はタスクの難易度やハイパーパramータ設定によって変化するか？
RQ5正則化が深層強化学習における一般化性能を向上させる背後にあるメカニズムは何か？

主な発見

L2正則化を方策ネットワークに適用すると、全評価アルゴリズムおよび環境で一貫して性能向上が見られ、特に難易度の高いタスクで統計的に有意な向上が確認された。
L2正則化はしばしばエントロピー正則化を上回り、平均リターンおよびサンプル効率の両面で改善が観察された。
ドロップアウトおよびバッチ正則化は、主にオフポリシーなアルゴリズム（例：SAC、PPO）でのみ性能向上をもたらし、オンポリシーなアルゴリズムではしばしば性能を低下させた。
価値ネットワークに正則化を施しても恩恵がなく、むしろ性能を低下させる場合もあり、方策ネットワークのみに正則化を施すことが最適であることが示唆された。
正則化の有効性は広範なハイパーパramータ設定およびネットワークアーキテクチャに対して頑健であることが確認された。
L2正則化とエントロピー正則化を併用しても、追加の利点はわずかまたは全く得られず、L2正則化のみで十分な性能向上が達成可能であることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。