QUICK REVIEW

[論文レビュー] Variance Adjusted Actor Critic Algorithms

Aviv Tamar, Shie Mannor|arXiv (Cornell University)|Oct 14, 2013

Reinforcement Learning in Robotics参考文献 13被引用数 25

ひとこと要約

本稿では、期待報酬と分散ペナルティを組み合わせたリスクセンシティブな目的を最適化するための分散調整付きアクタ・クリティックアルゴリズムを提案する。共通特徴量を分散調整設定に拡張し、クリティックに線形関数近似を用いることで、勾配推定ごとに1つの軌道のみを用いて、真の目的関数の局所最適解への確実収束を保証する。

ABSTRACT

We present an actor-critic framework for MDPs where the objective is the variance-adjusted expected return. Our critic uses linear function approximation, and we extend the concept of compatible features to the variance-adjusted setting. We present an episodic actor-critic algorithm and show that it converges almost surely to a locally optimal point of the objective function.

研究の動機と目的

リスクセンシティブ強化学習のための分散調整目的 $J - \mu V$ を最適化するアクタ・クリティックフレームワークの開発。
共通特徴量の概念を分散調整設定に拡張し、効率的な方策勾配推定を可能にする。
同時摂動に依存するか、関数近似による近似誤差を抱える既存手法の限界を解消する。
線形関数近似のもとで、真の目的関数の局所最適解への収束を保証する。
線形関数近似を分散ペナルティ付きアクタ・クリティックフレームワークに統合することで、大規模な状態空間への実用的応用を可能にする。

提案手法

クリティックは、期待報酬到達値 $J^\theta(x)$ とその2次モーメント $M^\theta(x)$ の両方を線形関数近似で推定し、そこから分散 $V^\theta(x)$ を導出する。
方策勾配の導出には、分散調整目的の勾配と $J^\theta$ および $M^\theta$ の方策パラメータに関する微分を関連付ける拡張された方策勾配定理を用いる。
分散調整目的に特化した新しい形の共通特徴量を導入し、クリティックの価値推定が方策勾配の方向と整合するように保証する。
更新ごとに1つの軌道のみを用いて目的関数の勾配を計算するため、同時摂動法で必要な複数の軌道を回避する。
$M^\theta$ の勾配は、遷移行列 $P$、報酬関数 $r$、方策微分 $\partial \log \pi / \partial \theta_j$ を含む再帰的分解を経て、行列逆行列を用いた閉形式表現が得られる。
最終的な勾配推定は $\mathbb{E}\left[\sum_{t=0}^{\infty} \frac{d}{d\theta_j} \log \pi(u_t|x_t) \left( M^\theta(x_t,u_t) + 2J^\theta(x_t,u_t) \sum_{s=0}^{t-1} r(x_s) \right) \right]$ として表現され、効率的なオンポリシー学習を可能にする。

実験結果

リサーチクエスチョン

RQ1線形関数近似のもとで、真の目的関数の局所最適解への収束を保証する分散調整付きアクタ・クリティックアルゴリズムを設計できるか？
RQ2共通特徴量の概念を分散調整設定に拡張することで、価値関数近似の整合性を保証できるか？
RQ3同時摂動法が要求する複数のロールアウトを回避して、1つの軌道のみを用いて分散調整目的の方策勾配を推定できるか？
RQ4このようなアルゴリズムの理論的収束保証は何か？また、関数近似特徴量の選択にどのように依存するか？
RQ5方策パラメータに関する2次モーメント $M^\theta$ の微分を効率的に計算し、方策改善に活用する方法は何か？

主な発見

提案されたエピソード型アクタ・クリティックアルゴリズムは、標準的仮定のもとで、分散調整目的関数 $J - \mu V$ の局所最適点への確実収束を示す。
関数近似誤差による目的関数の変更版の局所最適解への収束という問題を回避し、真の目的関数の局所最適解への収束を保証する。
勾配推定ごとに1つの軌道のみを必要とするため、2つの軌道を必要とする手法に比べて、サンプル効率が向上する。
分散調整目的のための方策勾配の導出は、報酬の2次モーメントを組み込む新しい方策勾配定理の拡張に基づく。
分散調整設定における共通特徴量の使用により、クリティックの価値推定が方策勾配の方向と整合し、学習の安定性が向上する。
理論的分析により、勾配推定が不偏であり、かつ方策勾配と報酬が有界である仮定のもとで、アルゴリズムが収束を維持することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。