QUICK REVIEW

[論文レビュー] DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections

Ofir Nachum, Yinlam Chow|arXiv (Cornell University)|Jun 10, 2019

Reinforcement Learning in Robotics参考文献 44被引用数 42

ひとこと要約

DualDICEは、per-step 重要度重みなしでオフポリシー評価のための割引済み定常分布補正を推定する振る舞いに依存しない手法を導入し、理論的保証と従来のアプローチに対する経験的改善を提供します。

ABSTRACT

In many real-world reinforcement learning applications, access to the environment is limited to a fixed dataset, instead of direct (online) interaction with the environment. When using this data for either evaluation or training of a new policy, accurate estimates of discounted stationary distribution ratios -- correction terms which quantify the likelihood that the new policy will experience a certain state-action pair normalized by the probability with which the state-action pair appears in the dataset -- can improve accuracy and performance. In this work, we propose an algorithm, DualDICE, for estimating these quantities. In contrast to previous approaches, our algorithm is agnostic to knowledge of the behavior policy (or policies) used to generate the dataset. Furthermore, it eschews any direct use of importance weights, thus avoiding potential optimization instabilities endemic of previous methods. In addition to providing theoretical guarantees, we present an empirical study of our algorithm applied to off-policy policy evaluation and find that our algorithm significantly improves accuracy compared to existing techniques.

研究の動機と目的

環境へのアクセスが固定された、あるいは複数のポリシーからなるデータセットに限定される場合のオフポリシー評価を動機づける。
割引済み定常分布比を用いたバイアス補正済み価値推定フレームワークを定義する。
挙動ポリシーや重要度重みの知識を必要とせず、分布補正を推定する最適化ベースの手法を開発する。
理論的収束保証を提供し、ベンチマーク全体で従来手法に対する実証的改善を示す。

提案手法

定常分布補正 w_{π/𝒟}(s,a) = d^{π}(s,a)/d^{𝒟}(s,a) を定式化し、それを OPE 目的と関連づける。
所望の補正 (ν* − B^{π}ν*) = w_{π/𝒟} に等しくなる最小化点を導く凸目的関数 J(ν) を導入する。
Fenchel 双対性を適用して、二乗のベルマン残差目的を ν と ζ を含むサドル点問題へ変換し、偏りのない確率的勾配を可能にする。
ν, ζ のミン-マックス最適化を導出し、その解は ζ*(s,a) = w_{π/𝒟}(s,a) によって定常補正を提供する。
一般の凸ペナルティ f に拡張し、類似した利点を持つサドル点目的関数のファミリーを得る。

実験結果

リサーチクエスチョン

RQ1未知または複数の挙動ポリシーによって生成されたオフポリシーのデータセットに対して、割引済み定常分布補正をどのように推定できるか。
RQ2収束保証と実用的な最適化特性を維持しつつ、これらの補正をステップごとの重要度重みなしで推定できるか。
RQ3提案された DualDICE 目的は、関数近似を用いた場合を特に含め、TDベースおよびISベースのベースラインと比較して、オフポリシー評価を正確に得られるか。
RQ4凸ペナルティ f の選択は、最適化の安定性と推定精度にどのように影響するか。

主な発見

DualDICEは、per-step importance weights に依存せず、振る舞いに依存しない割引済み定常分布補正の推定量を提供する。
ν パラメータ化された目的関数の最適なベルマン残差は、所望の分布補正 w_{π/𝒟}(s,a) に等しい。
Fenchel dual 化されたミン-マックスの定式化は、偏りのない勾配推定と安定した最適化手順をもたらす。
この手法は、制御タスクにおいてTDベースのアプローチと比較して競合的または優れたOPE性能を達成し、特に関数近似と未知の挙動ポリシーの場合に顕著。
一般の凸ペナルティへの拡張は計算上の利点を維持し、近似誤差と最適化誤差のバランスをとる柔軟性を提供する。
実証的な結果は、複雑な環境においてTD法よりも安定性と精度が高いことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。