QUICK REVIEW

[論文レビュー] An Alternative Softmax Operator for Reinforcement Learning

Kavosh Asadi, Michael L. Littman|arXiv (Cornell University)|Dec 16, 2016

Reinforcement Learning in Robotics被引用数 26

ひとこと要約

本稿では、強化学習における収束を保証する非拡張性を持つ、新しい微分可能なソフトマックス演算子mellowmaxを提案する。標準的なボルツマンソフトマックスとは異なり、mellowmaxは状態に依存する温度パラメータを用いることで、不安定性や収束不能を回避しながらも、探索的行動を維持する。理論的・実践的両面でボルツマンソフトマックスを上回る性能を発揮する。

ABSTRACT

A softmax operator applied to a set of values acts somewhat like the maximization function and somewhat like an average. In sequential decision making, softmax is often used in settings where it is necessary to maximize utility but also to hedge against problems that arise from putting all of one's weight behind a single maximum utility decision. The Boltzmann softmax operator is the most commonly used softmax operator in this setting, but we show that this operator is prone to misbehavior. In this work, we study a differentiable softmax operator that, among other properties, is a non-expansion ensuring a convergent behavior in learning and planning. We introduce a variant of SARSA algorithm that, by utilizing the new operator, computes a Boltzmann policy with a state-dependent temperature parameter. We show that the algorithm is convergent and that it performs favorably in practice.

研究の動機と目的

オンポリシー強化学習におけるボルツマンソフトマックス演算子の不安定性および収束不能問題を解決すること。
収束保証を維持しながらも、探索と活用のバランスを取れるソフトマックス演算子を開発すること。
勾配ベース最適化に適した微分可能で非拡張なボルツマンソフトマックスの代替手段を提供すること。
表計算およびディープ強化学習設定において、ボルツマンソフトマックスを上回る実験的性能を示すこと。
計画、価値関数最適化、逆強化学習におけるより信頼性の高い学習を可能にすること。

提案手法

最大値と平均値の凸結合族の極限として定義されるmellowmaxを新たなソフトマックス演算子として提案し、非拡張性を保証する。
ボルツマンソフトマックスにおける非拡張性の違反を解消するため、状態に依存する温度パラメータを用いてmellowmaxを導出する。
mellowmaxを用いたSARSAの変種を提案し、表計算設定下での収束を保証する。
探索と活用のバランスを動的に調整するため、状態に依存する温度パラメータを導入する。
Lunar Lander環境において、深層ニューラルネットワークを用いたREINFORCE法を実装し、Adam最適化とKeras/Theanoを用いて手法を検証する。
mellowmaxの凸性および微分可能性を分析し、勾配ベースのアルゴリズムや逆強化学習への応用を可能にする。

実験結果

リサーチクエスチョン

RQ1微分可能かつ非拡張性を満たすソフトマックス演算子を設計でき、強化学習における収束を保証できるか？
RQ2ボルツマンソフトマックスをmellowmaxに置き換えることで、オンポリシーSARSAにおける安定性および収束性が向上するか？
RQ3Lunar Landerのようなディープ強化学習環境において、mellowmaxはボルツマンソフトマックスと比較してどのように性能を発揮するか？
RQ4mellowmaxは逆強化学習および計画アルゴリズムにおけるボルツマンソフトマックスの安定的代替手段として機能できるか？
RQ5状態に依存する温度パラメータの影響は、学習性能および収束性にどのような影響を与えるか？

主な発見

表計算設定下で、mellowmaxを用いたSARSAは収束するが、ボルツマンポリシーを用いたSARSAは不安定な価値推定を示し、収束しない。
mellowmaxはすべてのパrameter設定において非拡張性を満たし、一意の固定点への収束を保証する。
Lunar Lander環境において、mellowmaxはボルツマンソフトマックスのピーク性能を上回り、40,000エピソードにわたる平均報酬が高くなる。
温度パラメータが増加する際も、mellowmaxは活用的行動を維持し、最大化に近づきながらも不安定性を回避する。
mellowmaxの凸性および微分可能性のおかげで、勾配ベースの強化学習および逆強化学習への応用が可能になる。
実験結果から、mellowmaxはディープ強化学習においてボルツマンソフトマックスよりも安定した学習曲線と優れたサンプル効率を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。