Skip to main content
QUICK REVIEW

[論文レビュー] Hamilton-Jacobi-Bellman Equations for Q-Learning in Continuous Time

Jeongho Kim, Insoon Yang|arXiv (Cornell University)|Dec 23, 2019
Adaptive Dynamic Programming Control被引用数 2
ひとこと要約

本稿は、Lipschitz連続制御を伴う連続時間最適制御におけるQ関数のハミルトニアン・ジャコビ・ベルルマン(HJB)方程式を定式化し、Q関数が一意な粘性解であることを確立する。HJB理論に基づくQ学習アルゴリズムと、高次元システムに適応したDQNに類似した手法を提案し、1次元、10次元、20次元の力学的システムで検証した。

ABSTRACT

In this paper, we introduce Hamilton-Jacobi-Bellman (HJB) equations for Q-functions in continuous time optimal control problems with Lipschitz continuous controls. The standard Q-function used in reinforcement learning is shown to be the unique viscosity solution of the HJB equation. A necessary and sufficient condition for optimality is provided using the viscosity solution framework. By using the HJB equation, we develop a Q-learning method for continuous-time dynamical systems. A DQN-like algorithm is also proposed for high-dimensional state and control spaces. The performance of the proposed Q-learning algorithm is demonstrated using 1-, 10- and 20-dimensional dynamical systems.

研究の動機と目的

  • Lipschitz連続制御を伴う連続時間最適制御問題へのQ学習の拡張を目的とする。
  • 連続時間HJB方程式の唯一の粘性解としてのQ関数の確立を目的とする。
  • 粘性解理論を用いて最適性の必要十分条件を提供することを目的とする。
  • 連続時間力学的システムに適した実用的なQ学習アルゴリズムの開発を目的とする。
  • DQNに類似したアプローチを用いて、高次元状態および制御空間へのスケーリングを実現することを目的とする。

提案手法

  • Lipschitz制御制約下での連続時間最適制御におけるQ関数を支配するHJB方程式を導出する。
  • 粘性解理論を用いて、Q関数の一意性および最適性条件を証明する。
  • 時間差分更新を用いてHJB方程式を繰り返し解くQ学習アルゴリズムを提案する。
  • 高次元状態および制御空間における連続時間処理に適したDQNアーキテクチャを適応する。
  • 関数近似と経験再生を用いて、高次元設定における学習の安定化を図る。
  • 1次元、10次元、20次元の力学的システムにアルゴリズムを適用し、スケーラビリティと性能を実証する。

実験結果

リサーチクエスチョン

  • RQ1Lipschitz制御を伴う連続時間最適制御におけるQ関数のHJB方程式は、どのように定式化できるか?
  • RQ2粘性解は、Q関数の特徴付けと最適性の保証において、果たす役割は何か?
  • RQ3連続時間システムに対して、HJB方程式から直接Q学習アルゴリズムを導出可能か?
  • RQ4提案手法は、高次元状態および制御空間にどのようにスケーリングされるか?
  • RQ5さまざまな次元性を示す連続時間力学的システムにおいて、どのような実証的性能が達成できるか?

主な発見

  • 連続時間最適制御におけるQ関数は、導出されたHJB方程式の一意な粘性解である。
  • 粘性解フレームワークを用いて、最適性の必要十分条件が確立された。
  • 提案されたQ学習アルゴリズムは、連続時間における最適制御方策の学習に成功した。
  • DQNに類似した適応により、10次元および20次元の高次元システムにおいても効果的な学習が可能となった。
  • 実証的結果から、1次元、10次元、20次元の力学的システムにおいて、安定的かつ収束する学習が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。