QUICK REVIEW

[論文レビュー] Reinforcement Learning via Fenchel-Rockafellar Duality

Ofir Nachum, Bo Dai|arXiv (Cornell University)|Jan 7, 2020

Reinforcement Learning in Robotics参考文献 52被引用数 25

ひとこと要約

この論文は、Fenchel-Rockafellar双対性を用いた統一的なフレームワークを提示し、凸最適化を介して、行動に依存しないオフライン方策評価およびオンポリシー方策勾配推定を可能にする。正則化された双対定式化が非制約の双対問題を生じさせることを示し、理論的保証とともに、オンライン/オフライン、割引/非割引の両設定において安定的かつスケーラブルなRLアルゴリズムを実現する。

ABSTRACT

We review basic concepts of convex duality, focusing on the very general and supremely useful Fenchel-Rockafellar duality. We summarize how this duality may be applied to a variety of reinforcement learning (RL) settings, including policy evaluation or optimization, online or offline learning, and discounted or undiscounted rewards. The derivations yield a number of intriguing results, including the ability to perform policy evaluation and on-policy policy gradient with behavior-agnostic offline data and methods to learn a policy via max-likelihood optimization. Although many of these results have appeared previously in various forms, we provide a unified treatment and perspective on these results, which we hope will enable researchers to better use and apply the tools of convex duality to make further progress in RL.

研究の動機と目的

強化学習における分散した結果——特に方策評価、方策最適化、オフラインRL——をFenchel-Rockafellar双対性の理論的枠組みの下で統一すること。
時系列差分法における不安定性や発散を解消するため、RL問題を双対性に基づく再定式化を伴う凸最適化として再定式化すること。
行動方策の知識を必要としない双対目的を導出することにより、行動に依存しないオフラインRLを可能にすること。
凸正則化を用いた体系的な手法により、非制約の双対問題を導出し、従来の線形計画法の手法を改善すること。
最適化と強化学習のコミュニティの間の溝を埋めるために、双対性と正則化を用いた新しいRLアルゴリズムを導出する一般化可能なプロトコルを提供すること。

提案手法

線形制約と凸目的関数を伴う制約付き凸最適化問題として、方策評価と最適化を定式化する。
Fenchel-Rockafellar双対性を適用し、原始問題を非制約の双対問題に変換することで、取り扱いやすさと安定性を向上させる。
原始目的関数に凸正則化子（例：負エントロピー、二乗項）を導入し、強い双対性を保証するとともに、滑らかで非制約の双対を実現する。
方策最適化のための双対目的、例えば $\min_V \mathbb{E}_{d^\mathcal{D}}[\exp(R(s,a) + \mathcal{T}V(s,a) - V(s))]$ を導出することで、最尤方策回復が可能になる。
ラグランジュ緩和とDanskinの定理を用いて、オフライン設定でさえも双対目的から方策勾配を導出する。
正則化（例：$\chi^2$-発散に基づく）を用いることで、非割引設定への一般化を図り、最適方策推定を保証する。

実験結果

リサーチクエスチョン

RQ1Fenchel-Rockafellar双対性を、RL問題の安定的かつ非制約の双対定式化を体系的に導出するのにどのように適用できるか？
RQ2双対性と正則化を活用することで、行動方策の知識なしにオフライン方策評価を実現できるか？
RQ3凸正則化は、非制約の双対に変換可能な制約付き原始問題をどのように変換するか？
RQ4双対性に基づく定式化は、従来の時系列差分法や線形計画法の手法と比較して、安定性とサンプル効率の点でどのように異なるか？
RQ5同じ双対性フレームワークを、オンラインおよびオフライン設定における方策最適化および模倣学習へ拡張可能か？

主な発見

正則化された方策評価問題のFenchel-Rockafellar双対は非制約であるため、制約処理を伴わずに安定的かつスケーラブルな最適化が可能になる。
双対定式化により、行動方策に依存せず、データ分布 $d^\mathcal{D}$ のみに依存する行動に依存しないオフライン方策評価が可能になる。
最適双対変数 $\zeta^*(s,a) = \frac{d^\pi(s,a)}{d^\mathcal{D}(s,a)}$ は真の状態行動訪問比を回復し、正確な方策価値推定を可能にする。
双対目的 $\min_V \mathbb{E}_{d^\mathcal{D}}[\exp(R(s,a) + \mathcal{T}V(s,a) - V(s))]$ を用いた方策最適化により、最尤方策回復ルールが得られる。
原始問題における正則化（例：$\ell_2$ やエントロピー）は、最適双対解を保持するため、関数近似を用いた場合でも安定した学習が可能になる。
正則化（例：$\chi^2$-発散に基づく）により、非割引設定への一般化が可能となり、一貫性が保証されるGenDICE目的関数が回復される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。