QUICK REVIEW

[論文レビュー] Policy Gradient Methods for Reinforcement Learning with Function Approximation and Action-Dependent Baselines

Philip S. Thomas, Emma Brunskill|arXiv (Cornell University)|Jun 20, 2017

Reinforcement Learning in Robotics参考文献 2被引用数 43

ひとこと要約

この論文は、関数近似を用いた強化学習における行動に依存するベースラインを許容するように、方策勾配定理を拡張する。バイアスを回避するためには、行動価値関数とベースラインの差分（残差）を適合可能な関数近似器が推定する必要がある。主な貢献は、行動に依存するベースラインを用いてもバイアスのない方策勾配推定を可能にする修正された損失関数の導入であり、これにより方策最適化における分散低減がより効果的に行える。

ABSTRACT

We show how an action-dependent baseline can be used by the policy gradient theorem using function approximation, originally presented with action-independent baselines by (Sutton et al. 2000).

研究の動機と目的

関数近似を用いた方策勾配法において、行動に依存するベースラインが引き起こすバイアスを解消すること。
状態と行動の両方に依存するベースラインを許容することで、方策学習におけるより効果的な分散低減を実現すること。
行動に依存するベースラインを用いる場合でも、方策勾配推定のバイアスのない性質を保つ理論的に整合した手法を開発すること。
関数近似の目的関数を再定義することで、行動に依存するベースラインを扱えるように方策勾配定理を一般化すること。

提案手法

関数近似器 fw(s,a) と残差 (qθ(s,a) − b(s,a)) 間の二乗誤差を最小化するように修正された損失関数 ˜L(w) を提案。qθ(s,a) ではなく、残差を直接近似する。
˜L(w) を最小化する最適な重みベクトル ew⋆ を定義し、ベースライン差し引き後の残差を近似器が学習することを保証する。
w⋆ の代わりに ew⋆ を用いる新しい方策勾配定理を導出。行動に依存するベースライン b(s,a) を用いても勾配がバイアスを伴わないことを示す。
方策勾配が、状態・行動ペair における (f̃w⋆(s,a) + b(s,a)) と方策勾配の積の期待値として表現できることを示す。
b(s,a) が専門知識やデータから推定可能であり、fw(s,a) と組み合わせて統合された関数近似器 ˆqw,x(s,a) = fw(s,a) + bx(s,a) を構築するフレームワークを導入。
行動に依存するベースラインを用いる場合にバイアスが生じないための理論的条件を確立する。

実験結果

リサーチクエスチョン

RQ1関数近似を用いた方策勾配法において、行動に依存するベースラインを用いる場合、バイアスが生じないか？
RQ2行動に依存するベースラインを用いる場合に、バイアスのない方策勾配推定を維持するためには、関数近似の目的関数にどのような修正が必要か？
RQ3行動価値関数とベースラインの差分（残差）を直接推定するように、適合可能な関数近似器をどのように再定義できるか？
RQ4ベースラインが状態と行動の両方に依存する場合、方策勾配の理論的形はどのように表されるか？
RQ5バイアスのない方策勾配を保ちつつ、ベースラインをデータや専門知識から学習可能か？

主な発見

適合可能な関数近似器が qθ(s,a) ではなく、(qθ(s,a) − b(s,a)) の残差を推定する限り、行動に依存するベースラインを含む方策勾配定理の拡張はバイアスを生じさせない。
修正された損失関数 ˜L(w) を最小化する最適重みベクトル ew⋆ が、行動に依存するベースラインが存在しても方策勾配がバイアスを伴わないことを保証する。
方策勾配は、(f̃w⋆(s,a) + b(s,a)) と方策勾配の積の期待値として表現され、元の勾配形式を保つ。
行動に応じて適応するベースラインを用いることで、より効果的な分散低減が可能となり、方策学習におけるサンプル効率が向上する。
fw(s,a) と bx(s,a) を同時に学習するフレームワークを提供し、統合された関数近似器 ˆqw,x(s,a) のエンドツーエンド学習を可能にする。
理論的基盤により、深層強化学習における関数近似を伴う行動に依存するベースラインを活用する新たなアルゴリズム設計が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。