QUICK REVIEW

[論文レビュー] AlgaeDICE: Policy Gradient from Arbitrary Experience

Ofir Nachum, Bo Dai|arXiv (Cornell University)|Dec 4, 2019

Reinforcement Learning in Robotics参考文献 52被引用数 82

ひとこと要約

AlgaeDICEは、密度正則化と二重関数を用いて、重要度重みなしで任意のオフポリシーデータからオンポリシー勾配を回復する、オフポリシー政策勾配法を提案します。

ABSTRACT

In many real-world applications of reinforcement learning (RL), interactions with the environment are limited due to cost or feasibility. This presents a challenge to traditional RL algorithms since the max-return objective involves an expectation over on-policy samples. We introduce a new formulation of max-return optimization that allows the problem to be re-expressed by an expectation over an arbitrary behavior-agnostic and off-policy data distribution. We first derive this result by considering a regularized version of the dual max-return objective before extending our findings to unregularized objectives through the use of a Lagrangian formulation of the linear programming characterization of Q-values. We show that, if auxiliary dual variables of the objective are optimized, then the gradient of the off-policy objective is exactly the on-policy policy gradient, without any use of importance weighting. In addition to revealing the appealing theoretical properties of this approach, we also show that it delivers good practical performance.

研究の動機と目的

コストの高いまたは制限された環境相互作用からの学習を動機付け、オフポリシー政策最適化を可能にする。
状態-行動占有量に対する密度正則化を用いて、最大リターン最適化をオフポリシー問題として再定式化する。
任意のデータから最適化できる、ポリシー（アクター）と二重関数（クリティック）を結ぶ鞍点目的関数を導出する。
二重関数を最適化すると、正則化された報酬を用いたオンポリシー政策勾配が得られることを示す。
本手法の理論的保証と実証的検証を提供する。

提案手法

正規化された状態-行動占有量の観点で表現されたmax-return目的の双対定式化から始める。
オンポリシーとオフポリシーの占有量の間のf-ダイバージェンスを用いた正則化を導入し、オフポリシーデータの利用を可能にする。
変数変換を適用して、ポリシーπと二重関数νの上で最適化される純粋なオフポリシー目的 J_{D,f}(π,ν) を得る。
f-ダイバージェンスの変分形と二重埋め込みを用いてダブルサンプリング問題に対処する。
二重 ν が最適化されると、ポリシーパラメータに関する勾配が、修正報酬 tilde{r}(s,a) = r(s,a) - α f'(w_{π/ D}(s,a)) を用いたオンポリシー政策勾配と一致することを示す。
ポリシーと価値学習のための単一の統一的な目的関数を生み出し、挙動に依存しないオフポリシー最適化を可能にするラグランジュ/LP の視点を論じる。

実験結果

リサーチクエスチョン

RQ1Importance weighting なしに max-return 最適化をオフポリシー問題として表現できるか？
RQ2任意のオフポリシーデータから学習する際に、二重最適化がオンポリシー政策勾配をもたらすか？
RQ3f-ダイバージェンス正則化と二重埋め込みは、安定したオフポリシー政策最適化をどのように実現できるか？
RQ4オフポリシーデータ下でのAlgaeDICEを用いたポリシー学習に関する理論的保証と実践的示唆は何か？

主な発見

二重関数を最適化すると、オフポリシー目的はオンポリシー政策勾配を再現する。
正則化された二重定式は、Importance weightsなしにオフポリシーデータからポリシーとクリティックを同時に訓練する統一的な目的を生み出す。
2次のf を選ぶと、Actor- criticsに似た目的だが、原理的な挙動非依存のオフポリシー基盤を持つ。
ラグランジュ/LP 見解は強い双対性を提供し、正則化された max-return 目的に一致する Fenchel AlgaeDICE 目的を回復できる。
実証結果は、AlgaeDICE がオフライン Four Rooms や連続制御スイートを含むベンチマーク課題で良好に機能することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。