QUICK REVIEW

[論文レビュー] Taming the Noise in Reinforcement Learning via Soft Updates

Roy Fox, Ari Pakman|arXiv (Cornell University)|Dec 28, 2015

Reinforcement Learning in Robotics参考文献 34被引用数 67

ひとこと要約

この論文は、情報理論的正則化項を用いて決定論的方策の罰則を課すことにより、ノイズが多い環境における価値関数推定バイアスを低減する、G-learningと呼ばれるオフポリシー強化学習アルゴリズムを紹介する。時間とともにこの罰則をスケジューリングすることで、G-learningは収束が速く、サンプル効率が向上し、Q学習を上回り、探索に配慮した学習において、Expected-SARSAなどのオンポリシー手法と同等またはそれを上回る性能を発揮する。

ABSTRACT

Model-free reinforcement learning algorithms, such as Q-learning, perform poorly in the early stages of learning in noisy environments, because much effort is spent unlearning biased estimates of the state-action value function. The bias results from selecting, among several noisy estimates, the apparent optimum, which may actually be suboptimal. We propose G-learning, a new off-policy learning algorithm that regularizes the value estimates by penalizing deterministic policies in the beginning of the learning process. We show that this method reduces the bias of the value-function estimation, leading to faster convergence to the optimal value and the optimal policy. Moreover, G-learning enables the natural incorporation of prior domain knowledge, when available. The stochastic nature of G-learning also makes it avoid some exploration costs, a property usually attributed only to on-policy algorithms. We illustrate these ideas in several examples, where G-learning results in significant improvements of the convergence rate and the cost of the learning process.

研究の動機と目的

ハードマックス演算による偏った価値推定が原因で、Q学習がノイズが多い環境で収束が遅い問題に対処すること。
決定論的方策に対する情報理論的罰則を用いて、モデルフリー強化学習における推定バイアスを低減すること。
オフポリシー手法が、従来オンポリシー手法に限られていた探索コストの意識を自然に組み込むこと。
学習中に探索と報酬のトレードオフをバランスさせるために、正則化係数の簡単で効果的なスケジュールを提供すること。
バイアス低減が学習速度とコスト効率の測定可能な向上に寄与することを示すこと。

提案手法

決定論的方策への過剰なコミットを避けるために、Q学習の更新ルールに情報理論的罰則項を追加するG-learningというオフポリシー手法を導入する。
罰則項は、現在の方策と確率的事前方策との間のカルバック・ライブラー発散に基づくもので、初期学習段階における価値推定を正則化する。
正則化係数βは時間とともにスケジューリングされる——初期段階では高い値に設定して確率的方策を促進し、徐々に低下させて決定論的方策への収束を許容する。
βには線形スケジュールを用い、実践的になかなかうまく機能することが実証的に示された。
G-learningは、確率的方策正則化を通じて、オフポリシー学習の能力を維持しながら、オンポリシー手法に似た探索コストの意識を実現する。
本手法は、標準的な関数近似、経験再生、およびその他の段階的学習技術と互換性がある。

実験結果

リサーチクエスチョン

RQ1オフポリシー手法は、サンプル効率を損なわずに、ノイズが多い環境における価値関数推定バイアスを低減できるか？
RQ2方策の決定論的特性に対する情報理論的正則化は、モデルフリー強化学習における収束速度の向上に寄与するか？
RQ3オフポリシー手法は、Expected-SARSAなどのオンポリシー手法と同等の探索コストの意識を達成できるか？
RQ4探索と報酬のトレードオフをバランスさせるために、正則化係数βの効果的なスケジュールは何か？
RQ5G-learningは、Q学習およびオンポリシー手法と比較して、収束速度とコスト効率の点でどのように異なるか？

主な発見

G-learningは、ノイズが多く、最適でないマックス演算に過剰適合するのを避けることで、初期学習段階における価値推定バイアスを顕著に低減する。
崖領域（cliff domain）において、G-learningはQ学習よりも収束が速く、Q学習よりも崖をより信頼性高く避ける。
G-learningは、収束速度においてExpected-SARSAを上回りながら、探索のコスト効率は同等またはそれ以上を達成する。
適切な確率的事前方策の選択により、ドメイン知識を組み込むことができ、利用可能であれば学習効率が向上する。
正則化係数βの線形スケジュールは実践的にうまく機能し、探索から報酬獲得への滑らかな移行を可能にする。
実験的結果から、G-learningは、複数のグリッドワールド環境において、Q学習、Double-Q、および他のベースライン手法よりもベルマン誤差をより速く低減することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。