QUICK REVIEW

[論文レビュー] Stochastic Variance Reduction Methods for Policy Evaluation

Simon S. Du, Jianshu Chen|arXiv (Cornell University)|Feb 25, 2017

Reinforcement Learning in Robotics被引用数 69

ひとこと要約

本論文は経験的 MSPBE を凸凹の鞍点問題へ変換し、線形関数近似を用いたポリシー評価に対して線形収束する primal-dual および確率的分散削減アルゴリズム（SVRG および SAGA）を開発する。

ABSTRACT

Policy evaluation is a crucial step in many reinforcement-learning procedures, which estimates a value function that predicts states' long-term value under a given policy. In this paper, we focus on policy evaluation with linear function approximation over a fixed dataset. We first transform the empirical policy evaluation problem into a (quadratic) convex-concave saddle point problem, and then present a primal-dual batch gradient method, as well as two stochastic variance reduction methods for solving the problem. These algorithms scale linearly in both sample size and feature dimension. Moreover, they achieve linear convergence even when the saddle-point problem has only strong concavity in the dual variables but no strong convexity in the primal variables. Numerical experiments on benchmark problems demonstrate the effectiveness of our methods.

研究の動機と目的

強化学習のための固定データセット下での効率的なポリシー評価を動機づける。
有限和構造を持つ凸凹鞍点問題として MSPBE の最小化を定式化する。
1回の反復コストが低く、線形収束を持つスケーラブルなアルゴリズムを開発する。
SVRG および SAGA 変種を通じて穏やかな仮定の下で理論的収束保証を提供する。
ベンチマークRL問題での実験を通じて有効性を示す。

提案手法

共役関数を用いて EM-MSPBE を凸凹鞍点問題に変換する。
完全秩結合と正定値 C の下で線形収束するプライマル-デュアルのバッチ勾配法（PDBG）を導出する。
有限和構造を活用して高速な分散削減更新を行う SVRG および SAGA 変種を導入する。
1回の反復コストを Z(d^2) 以下とせず、サンプルサイズ n および特徴量次元 d に線形にスケールするようにする。
プライマル目的関数が強凸性を欠く場合でも線形収束を示す収束保証を提供する。これは A および C の二項結合が良条件であることに依存している。
オフポリシー学習と有効性追跡を伴うTD への拡張について議論する。

実験結果

リサーチクエスチョン

RQ1EM-MSPBE を有限和凸凹鞍点問題に再定式化して分散削減法に適した形にできるか。
RQ2鞍点問題がデュアル強い凹性のみを持ち（rho がゼロの場合もあり）で、完全秩結合行列を有する場合、SVRG および SAGA はポリシー評価で線形収束を達成するか。
RQ3提案手法は標準RLデータセット上で、計算コストと収束の点で既存のポリシー評価アルゴリズムとどのように比較されるか。
RQ4この鞍点フレームワークにおけるオフポリシー学習と有効性追跡への含意は何か。

主な発見

SVRG および SAGA は EM-MSPBE を用いたポリシー評価で線形収束を達成する、Assumption 1（全秩 Â および正定値 Ĉ）の下。
デュアル強凹性のみが存在する場合でも、全秩の二項結合によりプライマル-デュアル定式化は線形収束を実現できる（rho = 0 の場合）。
1回の反復コストはデータセットサイズ n および特徴量次元 d に対して線形にスケールし、効率的な勾配ベースの更新を実現する。
複雑さの議論によれば、大規模な n または d の場合、SVRG/SAGA は伝統的な勾配法や LSTD を上回る。
このアプローチはオフポリシー学習と有効性追跡を伴う TD への拡張を、収束保証を犠牲にすることなく実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。