QUICK REVIEW

[論文レビュー] HJB Optimal Feedback Control with Deep Differential Value Functions and Action Constraints.

Michael Lutter, Boris Belousov|arXiv (Cornell University)|Jan 1, 2019

Reinforcement Learning in Robotics被引用数 6

ひとこと要約

本稿では、ハミルトニアン・ジャコビ・ベルマン（HJB）方程式に深層微分ネットワークを埋め込むことで、連続時間のロボットシステムに対してグローバルに最適で安定なフィードバック制御則を学習する、深層最適フィードバック制御を提案する。アクション制約を厳密に凸なアクションコストによって強制し、短期的から遠隔的へとdiscountingを適応的に変更しながらHJB誤差を最小化することで、再計画を必要とせず、任意の初期状態から最適軌道を生成できる価値関数を学習する。非線形系において、標準的最適制御を凌駕する性能を発揮する。

ABSTRACT

Learning optimal feedback control laws capable of executing optimal trajectories is essential for many robotic applications. Such policies can be learned using reinforcement learning or planned using optimal control. While reinforcement learning is sample inefficient, optimal control only plans an optimal trajectory from a specific starting configuration. In this paper we propose deep optimal feedback control to learn an optimal feedback policy rather than a single trajectory. By exploiting the inherent structure of the robot dynamics and strictly convex action cost, we can derive principled cost functions such that the optimal policy naturally obeys the action limits, is globally optimal and stable on the training domain given the optimal value function. The corresponding optimal value function is learned end-to-end by embedding a deep differential network in the Hamilton-Jacobi-Bellmann differential equation and minimizing the error of this equality while simultaneously decreasing the discounting from short- to far-sighted to enable the learning. Our proposed approach enables us to learn an optimal feedback control law in continuous time, that in contrast to existing approaches generates an optimal trajectory from any point in state-space without the need of replanning. The resulting approach is evaluated on non-linear systems and achieves optimal feedback control, where standard optimal control methods require frequent replanning.

研究の動機と目的

単一の最適軌道を計画するのではなく、訓練ドメイン全体にわたりグローバルに最適で安定なフィードバック制御則を開発すること。
初期状態が計画軌道から逸れた際に頻繁に再計画を要する標準的最適制御手法の限界を是正すること。
アクション制約を満たしながら、HJB偏微分方程式に深層ニューラルネットワークを埋め込み、エンドツーエンドで最適価値関数を学習すること。
任意の状態空間内の初期状態から最適軌道を生成するフィードバック則を学習することで、連続時間最適制御を実現すること。
訓練中にHJB誤差を最小化し、短期的から遠隔的へとdiscountingを動的に調整することで、サンプル効率と一般化性能を向上させること。

提案手法

最適制御問題を連続時間系の最適価値関数を特徴付けるハミルトニアン・ジャコビ・ベルマン（HJB）方程式を用いて定式化する。
最適価値関数をパrameter化するために、深層微分ネットワークをHJB方程式に埋め込み、勾配降下を用いたエンドツーエンド学習を可能にする。
アクション制約は、コスト関数内に厳密に凸なアクションコスト項を組み込むことで強制され、最適ポリシーがアクチュエータ制限を自然に満たす。
訓練目的は、状態空間全体にわたりHJB方程式の残差誤差を最小化するとともに、短期的最適化から長期的最適化へとシフトするようにdiscount因子を調整すること。
HJB方程式を通過するバックプロパゲーションを可能にする微分可能アーキテクチャを用い、価値関数とポリシーの共同最適化を実現する。
得られたポリシーは、学習済み価値関数の勾配から導かれるフィードバック則であり、訓練ドメイン上でグローバル最適性と安定性を保証する。

実験結果

リサーチクエスチョン

RQ1HJB方程式に深層ニューラルネットワークを効果的に埋め込み、アクション制約を満たしながらエンドツーエンドで最適フィードバック制御則を学習できるか？
RQ2提案手法は、再計画を要せず、訓練ドメイン全体にわたりグローバルに最適で安定な制御を達成できるか？
RQ3適応的discountingにより、短期的および長期的最適化のバランスを動的に調整でき、ポリシーの一般化性能が向上するか？
RQ4初期状態の変動に対するロバストネスと軌道最適性の観点から、提案手法のフィードバック制御則は、標準的最適制御手法に比べて優れているか？
RQ5再計画なしに、新たな初期状態へ一般化できる範囲はどの程度か？非線形系においても最適性をどのように維持できるか？

主な発見

提案手法は、新たな初期状態から再計画を必要とせず、訓練ドメイン全体にわたりグローバルに最適で安定なフィードバック制御則を学習した。
HJB方程式に埋め込まれた深層微分ネットワークは、残差誤差を効果的に最小化し、最適価値関数の精度の高い近似を可能にした。
厳密に凸なアクションコストを組み込むことで、ポリシーは自然にアクチュエータ制限を満たし、物理的実現可能性が保証された。
適応的discounting機構により、ネットワークは短期的および長期的コスト寄与を学習でき、収束性と一般化性能が向上した。
標準的最適制御手法が性能維持のため頻繁に再計画を要する非線形系において、本手法は最適フィードバック制御を達成した。
得られたポリシーは、状態空間の任意の点から最適軌道を生成でき、初期軌道を超えたロバストネスと一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。