Skip to main content
QUICK REVIEW

[論文レビュー] Approximate Inference and Stochastic Optimal Control

Konrad Rawlik, Marc Toussaint|arXiv (Cornell University)|Sep 20, 2010
Reinforcement Learning in Robotics参考文献 33被引用数 20
ひとこと要約

この論文は、確率的最適制御を近似的な推論問題に再定式化することで、反復的でモデルフリーかつオフポリシーな強化学習アルゴリズムの新しいクラスを可能にする。自然な双対定式化の緩和を活用することで、離散的および連続的制御タスク、特に線形二次ガウス(LQG)パンダム問題において、近最適な方策への収束を達成し、不安定な初期方策からでさえも安定した学習が可能となる。

ABSTRACT

We propose a novel reformulation of the stochastic optimal control problem as an approximate inference problem, demonstrating, that such a interpretation leads to new practical methods for the original problem. In particular we characterise a novel class of iterative solutions to the stochastic optimal control problem based on a natural relaxation of the exact dual formulation. These theoretical insights are applied to the Reinforcement Learning problem where they lead to new model free, off policy methods for discrete and continuous problems.

研究の動機と目的

  • 確率的最適制御と確率的推論を統合する新しい理論的枠組みの構築を目的とする。
  • この再定式化から反復的でモデルフリーかつオフポリシーな強化学習アルゴリズムを導出することを目的とする。
  • 連続的制御問題、特にLQGシステムを含む、実用的応用の有効性を示すこと。
  • 不安定な初期方策から出発しても、近最適な方策への収束を示すこと。
  • モンテカルロ近似を回避する連続的設定における解析的解法の可能性を拡張し、先行研究を超える一般化を実現すること。

提案手法

  • 変分ベイズ的手法を用いて、確率的最適制御問題を近似的な推論問題に再定式化する。
  • 自然勾配更新を用いた反復的最適化を可能にする、緩和された双対定式化を導出する。
  • 期待最大化(EM)フレームワークを適用し、制御問題に対する新しい反復的解法のクラスを導出する。
  • 連続的制御を目的としたLSΨアルゴリズムを提案し、基底関数を用いて方策パラメータを表現し、軌道サンプリングにより更新する。
  • エピソードごとのサンプリングに制約を課し、分散ベースライン補正を用いて学習の安定性と数値的安定性を確保する。
  • 評価のために、期待コストのモンテカルロ推定と、方策誤差のL2ノルムを用いる。

実験結果

リサーチクエスチョン

  • RQ1追加の仮定を必要とせずに、確率的最適制御を正確に近似的な推論問題に再定式化できるか?
  • RQ2確率的制御の双対定式化をどのように緩和すれば、実用的な反復的解法が得られるか?
  • RQ3この再定式化によって、離散的および連続的問題の両方における新しいモデルフリーでオフポリシーな強化学習アルゴリズムが導けるか?
  • RQ4不安定な方策から出発した場合、得られたアルゴリズムの収束特性はいかなるものか?
  • RQ5連続的制御設定において、高価な数値的またはモンテカルロ近似を回避して解析的解が得られるか?

主な発見

  • LSΨアルゴリズムは、連続的LQGパンダム制御問題において、方策誤差のL2ノルムの時間的減少を示すことで、近最適な方策ゲインを効果的に学習した。
  • LSΨ方策下での期待コストは最適値に収束し、初期方策が著しく悪い状態から出発しても、最先端の手法と同等の性能を達成した。
  • 初期方策が不安定であったにもかかわらず、約600〜700エピソードの経過でシステムが安定化し、エピソード長が増加することでその兆候が確認された。
  • 従来の手法とは異なり、初期方策が安定でなくても、またはコスト関数が割引率を含まなくても、収束を達成できる。
  • 基底関数の使用により、連続的状況下で解析的更新が可能となり、計算コストの高いモンテカルロ手法への依存が軽減された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。