Skip to main content
QUICK REVIEW

[論文レビュー] Finite-Time Performance Bounds and Adaptive Learning Rate Selection for Two Time-Scale Reinforcement Learning

Harsh Gupta, R. Srikant|arXiv (Cornell University)|Jul 14, 2019
Advancements in Semiconductor Devices and Circuit Design被引用数 49
ひとこと要約

本稿では、特異摂動理論から導かれたリャプノフ関数を用いて、2時間スケール線形確率的近似アルゴリズムの有限時間性能バウンドを確立する。実験では、最適な多項式減衰則を上回る、適応的学習率スケジューリングを提案し、GTD、GTD2、TDCなどの強化学習手法における収束速度を顕著に向上させる。

ABSTRACT

We study two time-scale linear stochastic approximation algorithms, which can be used to model well-known reinforcement learning algorithms such as GTD, GTD2, and TDC. We present finite-time performance bounds for the case where the learning rate is fixed. The key idea in obtaining these bounds is to use a Lyapunov function motivated by singular perturbation theory for linear differential equations. We use the bound to design an adaptive learning rate scheme which significantly improves the convergence rate over the known optimal polynomial decay rule in our experiments, and can be used to potentially improve the performance of any other schedule where the learning rate is changed at pre-determined time instants.

研究の動機と目的

  • 強化学習に用いられる2時間スケール線形確率的近似アルゴリズムの有限時間性能バウンドを導出すること。
  • 固定または多項式減衰スケジュールを上回る収束速度を実現する、適応的学習率選択法を開発すること。
  • 特異摂動理論を用いてリャプノフ関数を構築し、アルゴリズムの安定性および性能を分析・向上させること。
  • GTD、GTD2、TDCなどのアルゴリズムにおいて、動的学習率適応によって性能向上を実現すること。

提案手法

  • 特異摂動理論に由来するリャプノフ関数を構築し、2時間スケール確率的近似の誤差ダイナミクスを分析する。
  • リャプノフ関数の時間的減衰率を分析することで、有限時間性能バウンドを導出する。
  • 得られたバウンドを基に、現在の誤差推定に基づいて調整される適応的学習率スケジュールを設計する。
  • 固定学習率および多項式減衰ベースラインと比較して、GTD、GTD2、TDCを含む標準的なRLアルゴリズム上で、そのスケジュールを実験的に評価する。
  • 最適レートの事前知識が不要な条件下で、事前に定められた時刻に学習率を動的に調整可能である。

実験結果

リサーチクエスチョン

  • RQ12時間スケール線形確率的近似アルゴリズムに対して、有限時間性能バウンドを厳密に導出する方法は何か?
  • RQ2特異摂動理論に由来するリャプノフ関数は、このようなアルゴリズムにおける収束誤差の分析およびバウニングに効果的に用いられるか?
  • RQ3これらのバウンドに基づく適応的学習率スケジュールは、既知の固定または多項式減衰ルールを上回る性能を示すか?
  • RQ4提案された適応的スキームは、GTD、GTD2、TDCアルゴリズムにおける収束速度をどの程度向上できるか?

主な発見

  • 提案された有限時間性能バウンドは、特異摂動理論に基づくリャプノフ関数を用いて導出され、誤差の減衰解析の理論的基盤を提供する。
  • バウンドに基づく適応的学習率スキームは、実験的評価において、既知の最適な多項式減衰則を上回る収束速度を達成する。
  • 収束速度の向上は、GTD、GTD2、TDCを含む複数のRLアルゴリズムにおいて顕著かつ一貫して観察される。
  • 適応的手法は、事前に定められた時刻に学習率を調整する任意のスケジュールに適用可能であり、広範な適用可能性を有する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。