[論文レビュー] Discounted Reinforcement Learning Is Not an Optimization Problem
この論文は、継続的タスクにおける割引報酬強化学習は、グローバルな目的関数が存在しないため、最適化問題として明確に定義されていないと主張している。これは関数近似と互換性が取れない。代わりに平均報酬の最大化を提案し、これは関数近似下でも明確に定義された最適方策を持つ適切な最適化問題である。
Discounted reinforcement learning is fundamentally incompatible with function approximation for control in continuing tasks. It is not an optimization problem in its usual formulation, so when using function approximation there is no optimal policy. We substantiate these claims, then go on to address some misconceptions about discounting and its connection to the average reward formulation. We encourage researchers to adopt rigorous optimization approaches, such as maximizing average reward, for reinforcement learning in continuing tasks.
研究の動機と目的
- 継続的強化学習タスクにおける割引の従来の使用を疑問視すること。
- 割引報酬強化学習には、関数近似を伴う最適化が不可能なほど明確に定義された目的関数が欠如していることを示すこと。
- 関数近似下でも明確に定義された最適方策を持つ適切な最適化問題として、平均報酬最大化が有効であることを示すこと。
- 割引と平均報酬の定式化との関係についての誤解を解き明かすこと。
- 大規模で継続的な強化学習アプリケーションにおいて、より厳密な最適化フレームワーク(例:平均報酬)を推奨すること。
提案手法
- 割引価値関数の数学的構造を分析し、方策の間に全順序を定義しないことを示す。
- 関数近似を伴う場合、異なる状態で不比較な方策が生じるため、割引報酬下では最適な表現可能方策を一意に特定できないことを示す。
- 割引報酬と平均報酬の定式化を比較し、γ→1の極限において割引報酬が平均報酬と等価であることを示す。
- RVI Q学習や閉形式勾配を持つアクタ・クリティック手法を含む、平均報酬強化学習の既存のアルゴリズムをレビューする。
- 割引報酬のグリーディ最大化は、平均報酬の最適方策に収束しないことを示す。
- γを1に近づけることは、アルゴリズムの不安定性と臨界的割引率に関する知識の欠如のため、実用的ではないと主張する。
実験結果
リサーチクエスチョン
- RQ1なぜ継続的タスクにおける割引報酬強化学習は最適化問題として明確に定義されていないのか?
- RQ2関数近似と割引報酬の間には、根本的な不適合性が存在するのか?
- RQ3平均報酬定式化は、割引報酬強化学習に見られる問題をどのように解消するのか?
- RQ4割引報酬を最大化するアルゴリズムが、平均報酬の最適方策に収束しないことを示せるか?
- RQ5なぜγを1に引き上げることは実際には実行可能ではないのか?
主な発見
- 継続的タスクにおける割引報酬強化学習は、すべての方策を比較できるグローバルな目的関数が存在しないため、最適化問題として定義されていない。
- 関数近似を伴う場合、異なる状態で不比較な方策が生じるため、割引報酬下では最適な表現可能方策を定義できない。
- 平均報酬定式化は適切な最適化問題であり、表現可能方策の最適解の存在を保証する。
- 割引報酬のグリーディ最大化は平均報酬を最適化せず、γの選択に依存する方策を生じさせる。
- γを1に引き上げることは理論的には平均報酬最大化と同等だが、不安定性と臨界的割引率に関する知識の欠如のため、実用的ではない。
- RVI Q学習やポリシー勾配法などの平均報酬を最適化するアルゴリズムは、継続的タスクにおいて割引報酬法よりも安定性が高く、理論的にもより妥当である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。