QUICK REVIEW

[論文レビュー] Revisiting the Softmax Bellman Operator: New Benefits and New Perspective

Zhao Song, Ronald Parr|arXiv (Cornell University)|Dec 2, 2018

Reinforcement Learning in Robotics被引用数 28

ひとこと要約

この論文は深層Q学習におけるソフトマックスベルヌーイ作用素を再考し、理論的欠陊である非収縮性を除き、過大推定バイアスを低減し、ポリシー性能を向上させることを示している。指数的収束を証明し、最適ベルヌーイ作用素からの逸脱を限定することで、探索とは独立して、ソフトマックスがアタリ環境において標準的およびダブルDQNを上回ることの理由を説明している。

ABSTRACT

The impact of softmax on the value function itself in reinforcement learning (RL) is often viewed as problematic because it leads to sub-optimal value (or Q) functions and interferes with the contraction properties of the Bellman operator. Surprisingly, despite these concerns, and independent of its effect on exploration, the softmax Bellman operator when combined with Deep Q-learning, leads to Q-functions with superior policies in practice, even outperforming its double Q-learning counterpart. To better understand how and why this occurs, we revisit theoretical properties of the softmax Bellman operator, and prove that $(i)$ it converges to the standard Bellman operator exponentially fast in the inverse temperature parameter, and $(ii)$ the distance of its Q function from the optimal one can be bounded. These alone do not explain its superior performance, so we also show that the softmax operator can reduce the overestimation error, which may give some insight into why a sub-optimal operator leads to better performance in the presence of value function approximation. A comparison among different Bellman operators is then presented, showing the trade-offs when selecting them.

研究の動機と目的

非収縮性や価値関数精度の面での非最適性といった理論的問題があるにもかかわらず、なぜソフトマックスベルヌーイ作用素が深層Q学習におけるポリシー性能を向上させるのかを理解すること。
ソフトマックス作用素の収束特性と最適ベルヌーイ作用素からの逸脱を分析すること。
価値関数近似における過大推定バイアスが、ソフトマックス作用素によってどの程度低減されるかを定量化すること。
収束、バイアス、パフォーマンスの観点から、ソフトマックス、max、mellowmax作用素の間のトレードオフを比較すること。
過大推定を低減するためのダブルQ学習の代替としてソフトマックスを使用する理論的根拠を提供すること。

提案手法

逆温度パラメータに関して、ソフトマックスベルヌーイ作用素が標準ベルヌーイ作用素に指数的速さで収束することを証明する。
ソフトマックス作用素と標準ベルヌーイ作用素から導かれるQ関数間の距離について、上界と下界を確立する。
価値関数近似における過大推定バイアスを分析し、ソフトマックス作用素がmax作用素に対してどれほどバイアスを低減するかの境界を導出する。
van Hasseltら（2016a）と同一の理論的仮定を用い、任意の逆温度パラメータに対してソフトマックス作用素が過大推定バイアスを低減することを示す。
近似誤差と過大推定誤差の指標を用いて、温度パラメータを変化させた場合のソフトマックス作用素とmellowmax・max作用素の比較を行う。
DQNとダブルDQNを用いて、ターゲットネットワーク内のmax関数をソフトマックスに置き換えることで、実験的に手法を評価する。

実験結果

リサーチクエスチョン

RQ1非収縮的かつ価値関数精度が最適でないにもかかわらず、なぜソフトマックスベルヌーイ作用素が深層Q学習におけるより良いポリシーを生み出すのか？
RQ2逆温度パラメータの関数として、ソフトマックスベルヌーイ作用素が最適ベルヌーイ作用素にどの程度の速さで収束するのか？
RQ3ソフトマックス作用素は価値関数近似における過大推定バイアスを低減できるか？もしそうなら、どの程度の低減が可能か？
RQ4収束、バイアス、パフォーマンスの観点から、ソフトマックス、max、mellowmaxベルヌーイ作用素の間にはどのようなトレードオフがあるか？
RQ5ソフトマックス作用素によるパフォーマンス向上は、探索によるものか、それとも作用素自体の内在的性質によるものか？

主な発見

ソフトマックスベルヌーイ作用素は、逆温度パラメータに関して最適ベルヌーイ作用素に指数的速さで収束する。
ソフトマックス作用素を用いて計算されたQ関数が最適Q関数から逸脱する部分は、上界および下界によって限定されている。
ソフトマックス作用素は価値関数近似における過大推定バイアスを低減し、その低減量についても上界および下界が明確に示されている。
アタリゲームにおける実験結果から、DQNおよびダブルDQNにおいてmax関数をソフトマックスに置き換えることで、テストスコアが向上し、勾配ノイズが低減することが示された。
ソフトマックス作用素によるパフォーマンス向上は、探索とは無関係であり、すべてが価値関数近似への作用素の影響に起因している。
mellowmax作用素はソフトマックス作用素よりもさらに過大推定誤差を低減するが、それに伴い計算複雑性が増加する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。