QUICK REVIEW

[論文レビュー] Behavior Regularized Offline Reinforcement Learning

Yifan Wu, George Tucker|arXiv (Cornell University)|Nov 26, 2019

Reinforcement Learning in Robotics参考文献 33被引用数 249

ひとこと要約

tldr: 本論文は、挙動ポリシーへ向けて学習済みポリシーを正則化する柔軟なオフラインRLフレームワーク BRAC を提案し、単純な設計選択で重厚なアンサンブルや適応正則化を用いずとも最先端の性能に匹敵できることを示す。

ABSTRACT

In reinforcement learning (RL) research, it is common to assume access to direct online interactions with the environment. However in many real-world applications, access to the environment is limited to a fixed offline dataset of logged experience. In such settings, standard RL algorithms have been shown to diverge or otherwise yield poor performance. Accordingly, recent work has suggested a number of remedies to these issues. In this work, we introduce a general framework, behavior regularized actor critic (BRAC), to empirically evaluate recently proposed methods as well as a number of simple baselines across a variety of offline continuous control tasks. Surprisingly, we find that many of the technical complexities introduced in recent methods are unnecessary to achieve strong performance. Additional ablations provide insights into which design choices matter most in the offline RL setting.

研究の動機と目的

1つのフレームワークの下で、オフラインRLアルゴリズムにおける設計選択の重要性を評価する。
挙動正則化のバリエーション（価値ペナルティ vs ポリシー正則化）と発散量の測定を比較する。
シンプルなBRACバリアントが高度なオフラインRL手法に匹敵する、あるいはそれを上回るかを評価する。
オフラインRLの性能に最も影響を与える構成要素に関する実践的な指針を提供する。

提案手法

挙動正則化を通じて既存のオフラインRL手法を統合するBRACフレームワークを提案する。
挙動ポリシーに向けて正則化するために、価値ペナルティまたはポリシー正則化を用いる。
BRACのバリアントを、異なる発散（MMD，KL，Wasserstein）とターゲットQ値推定スキームで具現化する。
連続制御タスクにおける正則化タイプ、Q値アンサンブル、発散の選択に対する制御されたアブレーションを実施する。
ポリシー学習率と正則化強度のグリッドサーチを実行して感度を評価する。

実験結果

リサーチクエスチョン

RQ1連続制御タスクにおけるオフラインRL性能にとって、どのBRAC設計選択が重要ですか？
RQ2シンプルなBRACバリアントで十分ですか、それとも複雑なアンサンブルと適応正則化が必要ですか？
RQ3オフラインRL設定における正則化のための異なる発散はどのように比較されますか？
RQ4BRAC において、価値ペナルティは一般にポリシー正則化より優れていますか？
RQ5BRAC バリアントはハイパーパラメータとデータセット品質にどの程度敏感ですか？

主な発見

シンプルなBRACバリアントは、重いアンサンブルや適応正則化なしで強力なオフラインRL性能を達成できる。
2Qアンサンブルと最小のターゲットQ値を使用するのが一般に効果的であり、より大きなアンサンブルは利得が限定的である。
価値ペナルティはポリシー正則化より優れている傾向があるが、両方のバリアントは部分的に訓練されたベースラインのポリシーを上回る。
発散の違い（MMD、KL、Wasserstein）は実務上、正則化には同様に機能する。
ハイパーパラメータの選択、特に正則化強度は、オフラインRLの成功において重要な要因である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。