QUICK REVIEW

[論文レビュー] Finite-Sample Analysis of Proximal Gradient TD Algorithms

Bo Liu, Ji Liu|arXiv (Cornell University)|Jun 6, 2020

Reinforcement Learning in Robotics参考文献 38被引用数 105

ひとこと要約

論文はGTDを真の確率的勾配アルゴリズムとして primal-dual サドルポイント目的で再定義し、有限サンプル性能境界を提供し、近位ミラー写像を用いた加速GTD変種を提案する。

ABSTRACT

In this paper, we analyze the convergence rate of the gradient temporal difference learning (GTD) family of algorithms. Previous analyses of this class of algorithms use ODE techniques to prove asymptotic convergence, and to the best of our knowledge, no finite-sample analysis has been done. Moreover, there has been not much work on finite-sample analysis for convergent off-policy reinforcement learning algorithms. In this paper, we formulate GTD methods as stochastic gradient algorithms w.r.t.~a primal-dual saddle-point objective function, and then conduct a saddle-point error analysis to obtain finite-sample bounds on their performance. Two revised algorithms are also proposed, namely projected GTD2 and GTD2-MP, which offer improved convergence guarantees and acceleration, respectively. The results of our theoretical analysis show that the GTD family of algorithms are indeed comparable to the existing LSTD methods in off-policy learning scenarios.

研究の動機と目的

オフポリシーTD学習における真の確率的勾配法の必要性を動機づけ、従来のTD法の不安定性に対処する。
有限サンプル分析を可能にするサドルポイント形式からGTD/GTD2を導出する。
安定性のための束縛性と安定性のための平均出力を持つ改訂GTDアルゴリズムを開発する。
収束保証を改善するために確率的ミラー-プロックスを用いる加速GTD派生を提案する。
理論的有限サンプル境界を提供し、オフポリシー学習への含意を議論する。

提案手法

NEUとMSPBEを凸-凹サドルポイント問題として定式化し、GTDファミリがサドルポイントへ収束することを示す。
M = I または M = C を用いたサドルポイント目的関数 L(theta,y) を導入して、GTDとGTD2を統一する。
A、b、Cの無偏推定値を介してGTD/GTD2の真のSG更新を導出し、その有限サンプル分析を行う。
制限付き実現集合への射影と出力平均イテレートを持つ改訂GTDアルゴリズム。
Stochastic Mirror-Prox (SMP) を適用して GTD2-MP および関連する加速変種を作成する。
高確率の有限サンプル境界を提供し、オンポリシーとオフポリシーの設定を議論する。

実験結果

リサーチクエスチョン

RQ1サドルポイント形式を用いてGTDおよびGTD2を真の確率的勾配法として導出できるか？
RQ2オフポリシー学習におけるGTD/GTD2の有限サンプル性能境界は何か？
RQ3プロキシミラー/ミラー写像ベースの更新は収束を加速し、保証を改善するか？
RQ4オンポリシーとオフポリシーの設定は勾配TD法の有限サンプル境界にどのように影響するか？
RQ5実用的な改訂（射影、平均化）はGTDアルゴリズムの安定性と性能をどのように改善するか？

主な発見

GTDとGTD2はサドルポイント目的関数を用いた真のSG法として捉えられ、有限サンプル分析を可能にする。
標準仮定と軽尾条件の下でサドルポイント形式の有限サンプル境界を導出。
射影/改訂のGTDアルゴリズムは反復を境界付きに保証し、高確率誤差境界を可能にする。
GTD-MPとGTD2-MP（ミラー・プロックスベース）は元のGTDファミリと比べて加速収束保証を提供する。
オンポリシー設定では、性能誤差はサンプルサイズと問題の条件付けとともにスケールし、様々なシステム定数に依存する境界を反映する。
オフポリシー設定では、境界はビヘイビアポリシーとターゲットポリシー間の距離と共分散行列の条件付けに依存する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。