QUICK REVIEW

[論文レビュー] Reanalysis of Variance Reduced Temporal Difference Learning

Tengyu Xu, Zhe Wang|arXiv (Cornell University)|Jan 7, 2020

Reinforcement Learning in Robotics参考文献 30被引用数 18

ひとこと要約

本稿は、分散低減時系列差分（VRTD）学習を再分析し、先行研究の解析における技術的誤りを是正し、非漸近的収束保証を確立する。VRTDは、分散低減のためのバッチサイズを増加させることで、分散とバイアスの両方の誤差を著しく低減し、TD固定点の近傍への線形収束を達成する。条件数が小さい場合には、i.i.d.およびマコビアンサンプリングの両条件下で、vanilla TDに比べて優れた計算複雑度を示す。

ABSTRACT

Temporal difference (TD) learning is a popular algorithm for policy evaluation in reinforcement learning, but the vanilla TD can substantially suffer from the inherent optimization variance. A variance reduced TD (VRTD) algorithm was proposed by Korda and La (2015), which applies the variance reduction technique directly to the online TD learning with Markovian samples. In this work, we first point out the technical errors in the analysis of VRTD in Korda and La (2015), and then provide a mathematically solid analysis of the non-asymptotic convergence of VRTD and its variance reduction performance. We show that VRTD is guaranteed to converge to a neighborhood of the fixed-point solution of TD at a linear convergence rate. Furthermore, the variance error (for both i.i.d.\ and Markovian sampling) and the bias error (for Markovian sampling) of VRTD are significantly reduced by the batch size of variance reduction in comparison to those of vanilla TD. As a result, the overall computational complexity of VRTD to attain a given accurate solution outperforms that of TD under Markov sampling and outperforms that of TD under i.i.d.\ sampling for a sufficiently small conditional number.

研究の動機と目的

KordaとLa（2015）が提示した分散低減時系列差分（VRTD）学習の収束解析における技術的誤りを特定・是正すること。
i.i.d.およびマコビアンサンプリングの両条件下で、VRTDの数学的に厳密な非漸近的収束解析を提供すること。
分散低減のためのバッチサイズがVRTDにおける分散とバイアスの誤差に与える影響を定量化すること。
与えられた精度水準に達成するためのVRTDとvanilla TDの総合的計算複雑度を比較すること。

提案手法

残留分散とバイアス項を分離する新しい誤差分解を用いて、VRTDの収束証明を再構築する。
二重ループ構造を適用：外側のループでバッチの擬似勾配を計算し、内側のループで分散低減勾配推定値を用いてパラメータを更新する。
反復値と固定点解との間の期待二乗誤差をバウンディングするために、リャプノフ関数アプローチを用いる。
マコビアンサンプルの混合性とバッチサイズの効果を分析することで、残留分散とバイアス項のバウンディングを導出する。
定常ステップサイズのもとで、TD固定点の近傍への線形収束レートを確立する。
i.i.d.およびマコビアンサンプリングの両条件下で、VRTDとvanilla TDの両方のサンプル複雑度バウンディングを導出することにより、計算複雑度を比較する。

実験結果

リサーチクエスチョン

RQ1i.i.d.サンプリングにおいて、VRTDの分散低減は、vanilla TDに比べて、確率的擬似勾配分散に起因する定数誤差項を小さくするか？
RQ2VRTDは、マコビアンサンプリングによって生じる追加のバイアス誤差に対しても低減効果を示すか？また、これはバッチサイズにどのように依存するか？
RQ3VRTDにおける分散とバイアス誤差は、分散低減に用いられるバッチサイズにどのように依存するか？
RQ4i.i.d.およびマコビアンサンプリングの両条件下で、与えられた精度に到達するためのVRTDの総合的計算複雑度は、vanilla TDに比べてどの程度か？
RQ5どのような条件下で、VRTDは、総合的擬似勾配計算回数において、vanilla TDを上回るか？

主な発見

定常ステップサイズのもとで、VRTDはTD固定点解の近傍への線形収束を示し、誤差は率C1 < 1で幾何的に減少する。
i.i.d.およびマコビアンサンプリングの両条件下で、残留分散誤差はバッチサイズMの逆数1/Mの割合で低減される。
マコビアンサンプリング下でのVRTDにおけるバイアス誤差も、vanilla TDに比べて1/Mの割合で低減される。
i.i.d.サンプリング下では、ε-精度に到達するためのVRTDの総合的計算複雑度はO((1/ελ²A)log(1/ε))、マコビアンサンプリング下ではO((1/ελ²A)log²(1/ε))である。
十分に小さい条件数の下では、マコビアンサンプリング下でVRTDはvanilla TDを上回り、i.i.d.サンプリング下でも同様に、総合的擬似勾配計算回数においてVRTDがvanilla TDを上回る。
本分析は、KordaとLa（2015）による元のVRTD収束証明における技術的欠陥を是正し、本手法の健全な理論的基盤を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。