QUICK REVIEW

[論文レビュー] Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines

Cathy Wu, Aravind Rajeswaran|arXiv (Cornell University)|Mar 20, 2018

Reinforcement Learning in Robotics参考文献 15被引用数 72

ひとこと要約

偏りのない行動依存ベースラインを導入し、因子分解されたポリシーのための方策勾配の分散を低減; 理論的および実証的な分散削減を示し、高次元の行動にもスケール可能で、POMDPおよびマルチエージェント設定にも適用可能。

ABSTRACT

Policy gradient methods have enjoyed great success in deep reinforcement learning but suffer from high variance of gradient estimates. The high variance problem is particularly exasperated in problems with long horizons or high-dimensional action spaces. To mitigate this issue, we derive a bias-free action-dependent baseline for variance reduction which fully exploits the structural form of the stochastic policy itself and does not make any additional assumptions about the MDP. We demonstrate and quantify the benefit of the action-dependent baseline through both theoretical analysis as well as numerical results, including an analysis of the suboptimality of the optimal state-dependent baseline. The result is a computationally efficient policy gradient algorithm, which scales to high-dimensional control problems, as demonstrated by a synthetic 2000-dimensional target matching task. Our experimental results indicate that action-dependent baselines allow for faster learning on standard reinforcement learning benchmarks and high-dimensional hand manipulation and synthetic tasks. Finally, we show that the general idea of including additional information in baselines for improved variance reduction can be extended to partially observed and multi-agent tasks.

研究の動機と目的

長いホライズンや高次元の行動に特において、ポリシー勾配推定の高い分散を動機づけて対処する。
ポリシーの因子分解を活用して、バイアスのないアクション依存のベースラインを開発し、分散削減を改善する。
最適なアクション依存ベースラインと状態のみベースラインのサブ最適性を示す理論分析を提供する。
現実的なベースラインと高次元の制御タスクにスケールするアルゴリズムを提案する。
部分観測環境やマルチエージェントシナリオへの適用可能性を示す。

提案手法

状態が与えられるときにアクションが条件付き独立である因子化されたポリシー分布に対して、バイアスのないアクション依存ベースラインを導出する。
各アクション因子 i に対して、分散をバイアスなしに削減するためのベースライン b_i(s_t, a_t^{-i}) の計算方法を示す。
条件付き独立性の仮定の下で最適なアクション依存ベースライン b_i^*(s_t, a_t^{-i}) を導出する。
アクション依存ベースラインを状態のみベースラインと比較し、状態依存ベースラインのサブ最適性を分析する。
実用的なベースライン（周辺化された Q、モンテカルロ推定、平均アクションベースライン）を提案し、ポリシー勾配更新へ組み込む。
完全に因子化されたポリシーのアルゴリズムを提供し、一般的なポリシーやマルチエージェント/POMDP設定への拡張を議論する。

実験結果

リサーチクエスチョン

RQ1アクション依存の因子分解されたベースラインは、状態のみベースラインを超えて一貫してポリシー勾配推定の分散を削減できるか？
RQ2アクション因子の条件付き独立性の下で、最適なアクション依存ベースラインの形とその利点は何か？
RQ3現実的なベースライン（周辺化されたQ、平均アクション、モンテカルロ推定）は高次元のアクション空間でどのように機能するか？
RQ4アクション依存ベースラインは部分観測およびマルチエージェント強化学習設定に拡張するか？
RQ5標準ベンチマークと高次元タスク全体で、分散削減は従来のベースラインとどのように比較されるか？

主な発見

アクション次元	アクション依存ベースライン	状態依存ベースライン	デルタ	改善	閾値
12	45.6	45.6	0	0.0%	-0.01
100	136	150	14	9.3%	-0.25
400	268.2	304	35.8	11.8%	-0.99
2000	595.5	671.5	76	11.3%	-4.96

アクション依存ベースラインは、状態のみベースラインより一貫してポリシー勾配の性能を改善する。
最適なアクション依存ベースライン b_i^*(s_t, a_t^{-i}) はアクション座標ごとに異なり、状態のみベースラインへ退化することなく、バイアスなしの分散削減を達成できる。
アクション依存ベースラインからの分散削減は、アクション次元の増加とともに大きくなり、合成の高次元ターゲット整列タスクで示された。
実用的なベースライン（周辺化Q、平均アクション）は、妥当な計算オーバーヘッドでスケーラブルな分散削減を提供する。
部分観測タスクやマルチエージェントタスクへの拡張は、追加のベースライン情報を取り入れることで学習を加速することを示す。
経験的結果は、高次元の手の操作タスクやマルチエージェント通信タスクで、学習速度の向上とトレーニング速度の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。