QUICK REVIEW

[論文レビュー] GradientDICE: Rethinking Generalized Offline Estimation of Stationary Values

Shangtong Zhang, Bo Liu|arXiv (Cornell University)|Jan 29, 2020

Reinforcement Learning in Robotics被引用数 35

ひとこと要約

GradientDICE は、発散ベースの目的関数を Perron-Frobenius に基づく定式化に置換することにより、定常値に対する収束するオフポリシー密度比推定器を提示し、線形関数近似の収束を可能にし、GenDICE および DualDICE に比べて経験的に改善をもたらす。

ABSTRACT

We present GradientDICE for estimating the density ratio between the state distribution of the target policy and the sampling distribution in off-policy reinforcement learning. GradientDICE fixes several problems of GenDICE (Zhang et al., 2020), the state-of-the-art for estimating such density ratios. Namely, the optimization problem in GenDICE is not a convex-concave saddle-point problem once nonlinearity in optimization variable parameterization is introduced to ensure positivity, so any primal-dual algorithm is not guaranteed to converge or find the desired solution. However, such nonlinearity is essential to ensure the consistency of GenDICE even with a tabular representation. This is a fundamental contradiction, resulting from GenDICE's original formulation of the optimization problem. In GradientDICE, we optimize a different objective from GenDICE by using the Perron-Frobenius theorem and eliminating GenDICE's use of divergence. Consequently, nonlinearity in parameterization is not necessary for GradientDICE, which is provably convergent under linear function approximation.

研究の動機と目的

ターゲットと挙動の状態分布間の密度比を学習することで、オフポリシー評価における分布のミスマッチに対処する。
非線形性と発散ベースの目的関数に起因する GenDICE の理論的/収束上の問題を修正する。
線形関数近似の下で理論的に収束することが証明される新しい目的関数とアルゴリズムを提案する。
ベンチマークタスク全体で GenDICE および DualDICE に対する利点を示す実証的証拠を提供する。

提案手法

GenDICE の発散ベースの目的関数を二次形 L(τ) = 1/2 ||(Tτ) − Dτ||^2_{D^{-1}} + (λ/2)(d_μ^⊤ τ − 1)^2 に置換する。
正の制約付き非線形パラメータ化を回避するために Perron-Frobenius 定理を利用する。
線形関数近似を用いた場合、τ に対して最適化が凸で、最大化変数に対しては凹になることを示し、証明可能な収束を可能にする。
GradientDICE の更新式を導出: 最大化変数 κ, η および線形アーキテクチャ τ_w = Xw のための更新として、(21)-(24)。
線形関数近似とリッジ正則化を用いた場合、正しい τ へのほぼ確実な収束を示す収束解析を提供する。
射影付きバリアント（Projected GradientDICE）と平均反復による有限サンプル保証について論じる。

実験結果

リサーチクエスチョン

RQ1GradientDICE は線形関数近似の下で真の密度比 τ* に対して理論的に収束することが証明できるか。
RQ2発散の除去と非線形パラメータ化の排除は、オフポリシー/オフライン設定で GenDICE に観測される不安定性と収束不能を解決するか。
RQ3定常値推定において、ベンチマークタスクと構造（表形式、線形/ニューラルネットワーク）全体で GradientDICE は GenDICE および DualDICE に対してどう性能を示すか。
RQ4GradientDICE の有限サンプル保証は何か、射影が性能と一貫性にどう影響するか。

主な発見

GradientDICE は線形関数近似の下で真の密度比 τ* へ理論的に収束することが証明されている。
発散項と正性制約を排除することで非線形パラメータ化の必要がなくなり、目的関数の非凸性問題を回避する。
リッジ正則化を用いると γ = 1 のケースで収束が保証され、提案された経路の下で一貫した推定値を達成する。
射影バリアントの有限サンプル解析が提供され、平均反復の確率的誤差境界を与える。
密度比推定タスクにおいて、表形式および線形設定の両方で GenDICE および DualDICE に対する GradientDICE の利点を実証的に示し、再現性のためのコードを公開。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。