Skip to main content
QUICK REVIEW

[論文レビュー] Finite-Sample Analysis for SARSA with Linear Function Approximation

Shaofeng Zou, Tengyu Xu|arXiv (Cornell University)|Feb 6, 2019
Reinforcement Learning in Robotics被引用数 65
ひとこと要約

本論文は、非i.i.d. データと時変の挙動ポリシーの下で線形関数近似を用いるオンポリシーSARSAの初の非漸近的有限サンプル解析と、有限サンプル保証を持つ適合SARSA変種を提供する。

ABSTRACT

SARSA is an on-policy algorithm to learn a Markov decision process policy in reinforcement learning. We investigate the SARSA algorithm with linear function approximation under the non-i.i.d.\ data, where a single sample trajectory is available. With a Lipschitz continuous policy improvement operator that is smooth enough, SARSA has been shown to converge asymptotically \cite{perkins2003convergent,melo2008analysis}. However, its non-asymptotic analysis is challenging and remains unsolved due to the non-i.i.d. samples and the fact that the behavior policy changes dynamically with time. In this paper, we develop a novel technique to explicitly characterize the stochastic bias of a type of stochastic approximation procedures with time-varying Markov transition kernels. Our approach enables non-asymptotic convergence analyses of this type of stochastic approximation algorithms, which may be of independent interest. Using our bias characterization technique and a gradient descent type of analysis, we provide the finite-sample analysis on the mean square error of the SARSA algorithm. We then further study a fitted SARSA algorithm, which includes the original SARSA algorithm and its variant in \cite{perkins2003convergent} as special cases. This fitted SARSA algorithm provides a more general framework for \textit{iterative} on-policy fitted policy iteration, which is more memory and computationally efficient. For this fitted SARSA algorithm, we also provide its finite-sample analysis.

研究の動機と目的

  • 時変ポリシーからの非i.i.d. サンプルの下で、線形関数近似を用いたSARSAがどれくらい速く収束するかを理解する動機づけ。
  • 時間変化するマルコフカーネルを用いた確率近似の新しいバイアス特性評価を開発する。
  • SARSAと一般化された適合SARSAアルゴリズムの有限サンプル平均二乗誤差境界を導出する。
  • 適合SARSA法が収束特性を保ちながらメモリと計算効率の面でより優れる可能性を示す。

提案手法

  • 時間変化するマルコフ遷移カーネルを用いた確率近似の新しいバイアス特性手法を導入する。
  • 線形関数近似を用いたSARSAとリプシッツ連続なポリシー改善演算子をモデル化する。
  • 勾配降下スタイルのフレームワークとバイアス境界を用いた有限サンプル解析を提供する。
  • ポリシー改善間のTD(0)ベースの適合ステップを備えた一般的なオンポリシー適合SARSAアルゴリズムへ拡張する。
  • 減衰ステップサイズと一定ステップサイズの明示的な有限サンプル境界を導出する。

実験結果

リサーチクエスチョン

  • RQ1非i.i.d.データと時変の挙動ポリシーの下で、線形関数近似を用いたオンポリシーSARSAの非漸近的収束保証を得られるか?
  • RQ2時間変化するマルコフカーネルから生じる確率的バイアスは収束にどのように影響し、どの速さで現れるか?
  • RQ3SARSAおよび一般化された適合SARSAアルゴリズムに対してどのような有限サンプル誤差境界を確立できるか?
  • RQ4適合SARSAフレームワークは同等または改善されたサンプル複雑性を提供し、潜在的な計算利点があるか?
  • RQ5収束と扱いやすいバイアスを保証するポリシー改善の条件(リプシッツ性)は何か?

主な発見

  • 線形関数近似を用いた SARSA は、減衰および一定のステップサイズの下で有限サンプルの平均二乗誤差境界を達成し、定量化されたレートで theta* への収束を示す。
  • 減衰ステップサイズの下では、誤差は large T で O(log^3 T / T) にスケールし、誤差 delta に到達するためのサンプル複雑性は O(1/delta * log^3(1/delta)) を意味する。
  • 一定のステップサイズでは、ステップが十分小さく、T が十分大きい場合に theta* の小さな近傍へ収束する。
  • 一般的なオンポリシー適合SARSAアルゴリズムを分析し、SARSAと同じ全体的な O(1/delta log^3(1/delta)) のサンプル複雑性を示し、ポリシー改善間にTD反復を用いる場合に計算効率が向上する可能性を示す。
  • 適合ステップは完全収束前に終了しても、全体の収束性やサンプル複雑性を損なわない。
  • 非漸近解析を可能にするため、補助的に一様遍歴連鎖を用いて時間変化マルコフ過程のバイアス特性を開発した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。