QUICK REVIEW

[論文レビュー] GenDICE: Generalized Offline Estimation of Stationary Values

Ruiyi Zhang, Bo Dai|arXiv (Cornell University)|Feb 21, 2020

Reinforcement Learning in Robotics参考文献 48被引用数 50

ひとこと要約

GenDICE は、定常分布補正比を用いた定常値量の一貫したオフライン推定量であり、オフポリシー評価とオフライン PageRank に適用可能。

ABSTRACT

An important problem that arises in reinforcement learning and Monte Carlo methods is estimating quantities defined by the stationary distribution of a Markov chain. In many real-world applications, access to the underlying transition operator is limited to a fixed set of data that has already been collected, without additional interaction with the environment being available. We show that consistent estimation remains possible in this challenging scenario, and that effective estimation can still be achieved in important applications. Our approach is based on estimating a ratio that corrects for the discrepancy between the stationary and empirical distributions, derived from fundamental properties of the stationary distribution, and exploiting constraint reformulations based on variational divergence minimization. The resulting algorithm, GenDICE, is straightforward and effective. We prove its consistency under general conditions, provide an error analysis, and demonstrate strong empirical performance on benchmark problems, including off-line PageRank and off-policy policy evaluation.

研究の動機と目的

固定遷移サンプルからの定常量のオフライン推定問題を定式化する。
定常分布補正推定量を持つデュアルエンベディング目的を備えた GenDICE を提案する。
整合性を確立し、GenDICE の誤差分析を提供する。
オフライン PageRank およびオフポリシー評価のベンチマークで強力な実証性能を示す。

提案手法

tau* = mu/pi の補正を密度比 tau = mu/p として定式化し、D(T_gamma, mu0^p ◦ tau || p ◦ tau) の最小化を導出する。
収束を退化させないペナルティ付き可行集合を導入し、tau* = u/p が任意の lambda>0 に対してペナルティ付き問題の解となることを証明する。
f-ダイバージェンスを用いたデュアルエンベディングを用いて、問題をサンプルで扱える最小-最大の鞍点目的関数へ変換する。
実用的な J_chi^2 目的関数のためにカイ二乗ダイバージェンスに特化し、tau とデュアル f をニューラルネットワークでパラメータ化する。
鞍点の無偏勾配推定を提供し、スケーラブルな SGD ベースのアルゴリズム（GenDICE）を実装する。
任意で IPM-based ダイバージェンス（例: MMD）への拡張を検討し、カーネルベースのデュアルとのトレードオフを議論する。

実験結果

リサーチクエスチョン

RQ1遷移サンプラーにアクセスできない状態で、固定オフラインデータから定常値推定をどのように行えるか。
RQ2定常分布の補正比を定義して、割引なし・割引ありの両方の設定で一貫した推定を得られるか。
RQ3サンプルから比を学習するための実用的で安定した最適化目的は何か、退化解を避ける。
RQ4モデルベースまたは IS ベースのベースラインと比べて、GenDICE はオフライン PageRank およびオフポリシー評価でどう性能を示すか？

主な発見

GenDICE は一般的な条件の下で定常分布補正の一貫した推定量を提供する。
f-ダイバージェンスを用いたデュアルエンベディング定式化により、tau に関する凸目的を得て、gamma が (0,1] のとき安定性を保ち、gamma=1 を含む。
定理1は、E_p[tau]=1 制約を伴うペナルティ付き目的が tau* = u/p を任意の lambda>0 に対して解とすることを示し、退化解を回避する。
カイ二乗ダイバージェンスは実用的な J_chi^2 目的を tau とデュアル f のニューラルネットワークパラメータ化に適したものにする。
経験的結果は、GenDICE が表形式の OPR および Taxi ドメインの OPE 設定でモデルベースの手法を上回り、割引ありの場合でも DualDICE に対して競争力があるか優れており、gamma=1 の近傍での安定性が向上していることを示す。
この手法はニューラルネットと確率的最適化を用いて連続制御タスクへ拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。