QUICK REVIEW

[論文レビュー] Maxmin Q-learning: Controlling the Estimation Bias of Q-learning

Qingfeng Lan, Yangchen Pan|arXiv (Cornell University)|Feb 16, 2020

Reinforcement Learning in Robotics参考文献 13被引用数 38

ひとこと要約

Maxmin Q-learning は bootstrap 目標における N 個の行動価値推定量の最小値を用いることで、推定バイアスと分散を柔軟に制御する一般化であり、収束保証と経験的検証を提供する。

ABSTRACT

Q-learning suffers from overestimation bias, because it approximates the maximum action value using the maximum estimated action value. Algorithms have been proposed to reduce overestimation bias, but we lack an understanding of how bias interacts with performance, and the extent to which existing algorithms mitigate bias. In this paper, we 1) highlight that the effect of overestimation bias on learning efficiency is environment-dependent; 2) propose a generalization of Q-learning, called \emph{Maxmin Q-learning}, which provides a parameter to flexibly control bias; 3) show theoretically that there exists a parameter choice for Maxmin Q-learning that leads to unbiased estimation with a lower approximation variance than Q-learning; and 4) prove the convergence of our algorithm in the tabular case, as well as convergence of several previous Q-learning variants, using a novel Generalized Q-learning framework. We empirically verify that our algorithm better controls estimation bias in toy environments, and that it achieves superior performance on several benchmark problems.

研究の動機と目的

Q-learning における推定バイアスと、それが学習効率に環境依存的に与える影響を動機づける。
推定量の数 N によってバイアスと分散を調整できる一般化として Maxmin Q-learning を導入する。
適切な N に対して無バイアス推定と分散の低減を示す理論分析を提供する。
Generalized Q-learning フレームワーク内でタブラル設定における Maxmin Q-learning の収束を証明する。
玩具環境とベンチマーク問題を横断してバイアス制御と性能を経験的に検証する。

提案手法

各状態-行動ペアに対して N 個の行動価値推定量 Q^1, ..., Q^N を維持する。
ブートストラップ目標の N 個推定量の最小値を用いる：max_a' min_i Q^i(s', a').
リプレイバッファとミニバッチを用いてステップごとに推定量のランダムに選ばれた部分集合を更新する。
Maxmin DQN のために各推定量に対してターゲットを維持することでターゲットネットワークを任意で組み込む。
理論結果を提供する：E[Z_MN]（バイアス）は N の増加とともに減少し、Var[Q_sa^min] も N によって減少する。
Maxmin Q-learning を G(Q) = max_a min_i Q^i_sa とする Generalized Q-learning の特殊ケースとして位置づける。

実験結果

リサーチクエスチョン

RQ1Q-learning における過大推定バイアスは、異なる環境で学習効率にどのように影響するか？
RQ2柔軟なバイアス制御機構はブートストラップ目標のバイアスと分散の両方を低減できるか？
RQ3Maxmin Q-learning における推定量の数 N と推定バイアス/分散の理論的関係は何か？
RQ4Maxmin Q-learning はタブラル設定で収束するのか、Generalized Q-learning フレームワークの下で他の Q-learning の派生形へ一般化できるか？
RQ5既存のバイアス低減法と比較して、深層強化学習のベンチマークで Maxmin Q-learning は実用的に効果的か？

主な発見

Maxmin Q-learning は N の増加とともに過大推定バイアスを低減し、大きな N では過小推定バイアスを誘発する可能性がある。
Var[Q_sa^min] は N に従って減少し、ある条件下で N ≥ 8 の場合、全データを使用する単一推定量の分散より小さくなることがある。
標準の Q 学習より近似分散を低く抑えつつ、ほぼ無バイアス推定をもたらす N が存在する。
Maxmin Q-learning は Generalized Q-learning フレームワーク内でタブラル設定に収束する。
経験的結果は、Maxmin Q-learning が玩具環境で推定バイアスを堅牢に制御し、いくつかのベンチマークで優れた性能を達成することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。