QUICK REVIEW

[論文レビュー] If MaxEnt RL is the Answer, What is the Question?

Benjamin Eysenbach, Sergey Levine|arXiv (Cornell University)|Oct 4, 2019

Reinforcement Learning in Robotics参考文献 60被引用数 32

ひとこと要約

この論文は、メタPOMDPや敵対的報酬設定などの報酬の不確実性が生じる制御問題において、最大エントロピー強化学習（MaxEnt RL）が最適に解を求めるものであることを示している。メタPOMDPにおけるレギュレート最小化と等価であることを証明し、確率的かつ不確実な環境におけるその実験的成功を説明している。

ABSTRACT

Experimentally, it has been observed that humans and animals often make decisions that do not maximize their expected utility, but rather choose outcomes randomly, with probability proportional to expected utility. Probability matching, as this strategy is called, is equivalent to maximum entropy reinforcement learning (MaxEnt RL). However, MaxEnt RL does not optimize expected utility. In this paper, we formally show that MaxEnt RL does optimally solve certain classes of control problems with variability in the reward function. In particular, we show (1) that MaxEnt RL can be used to solve a certain class of POMDPs, and (2) that MaxEnt RL is equivalent to a two-player game where an adversary chooses the reward function. These results suggest a deeper connection between MaxEnt RL, robust control, and POMDPs, and provide insight for the types of problems for which we might expect MaxEnt RL to produce effective solutions. Specifically, our results suggest that domains with uncertainty in the task goal may be especially well-suited for MaxEnt RL methods.

研究の動機と目的

MaxEnt RLが最適解となる背後にある制御問題を特定すること。
標準的な強化学習とは異なる目的関数を最適化しているにもかかわらず、実際の応用でなぜMaxEnt RLが優れた性能を発揮するのかを説明すること。
報酬のばらつきが生じる状況を形式的に定式化し、MaxEnt RLが最適な確率的方策を提供すること。
MaxEnt RL、ロバスト制御、部分的に観測可能な意思決定問題との関係を確立すること。
報酬の不確実性を伴う敵対的およびメタ学習の設定において、なぜMaxEnt RLが自然に出現するのかを示すこと。

提案手法

報酬関数が観測不能でエピソードごとに変化するメタPOMDPにおいて、MaxEnt RLを期待レギュレートの最小化として形式化する。
敵対的選択による報酬関数の選択を、MDPの分布としてモデル化し、MaxEnt RLが得られるロバスト制御問題を解くこと。
最大エントロピーの原理を用いて、不確実性下での一意で最適な方策を導出し、最悪の報酬実現に対してロバストであることを保証する。
変分推論と周辺分布マッチングを用いて、MaxEnt RLと軌道上の複数方策の混合が等価であることを示す。
凸双対性とKKT条件を用いて、MaxEnt RLがロバスト報酬制御と等価な正則化された強化学習問題を解くことを示す。
MaxEnt RLが報酬関数の凸結合を用いた標準的な強化学習問題に還元できることを示し、エントロピー正則化のおかげで最適方策が一意に保証されることを示す。

実験結果

リサーチクエスチョン

RQ1MaxEnt RLは期待効用を最大化しないにもかかわらず、どのような制御問題において最適解を提供するのか？
RQ2報酬関数の不確実性がある状況で、MaxEnt RLが最適方策として出現するのはどのような設定か？
RQ3MaxEnt RLはロバスト制御および部分的に観測可能な意思決定問題とどのように関係しているか？
RQ4MaxEnt RLは目的関数が標準的強化学習とは異なるにもかかわらず、なぜ実際の応用で標準的強化学習を上回るのか？
RQ5MaxEnt RLはエントロピー最大化を越えて、明確に定式化された問題の最適解として形式的に正当化できるか？

主な発見

MaxEnt RLは、報酬関数が観測不能でエピソードごとに変化するメタPOMDPにおけるレギュレート最小化と等価である。
MaxEnt RLは、敵対的選択によって報酬関数が集合から選ばれるロバスト報酬制御問題において最適解を提供する。
エントロピー正則化のおかげで、MaxEnt RLにおける最適方策は一意であり、ロバスト性を確保し、退化した解を防ぐ。
MaxEnt RLは報酬関数の凸結合を用いた標準的な強化学習問題に還元可能であり、最適方策は一意に保証される。
この手法は、ダイナミクスと報酬の両方の不確実性を含む一般のロバスト制御問題に適用可能であり、報酬のばらつきに限らない。
理論的枠組みは、特に不確実性や敵対的環境における現実世界およびシミュレーテッド制御タスクにおけるMaxEnt RLの実験的成功を説明する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。