QUICK REVIEW

[論文レビュー] Optimal Control Via Neural Networks: A Convex Approach

Yize Chen, Yuanyuan Shi|arXiv (Cornell University)|May 30, 2018

Reinforcement Learning in Robotics参考文献 33被引用数 27

ひとこと要約

本論文は、複雑な力学的システムにおける最適制御のための凸最適化を可能にする、入力凸再帰的ニューラルネットワーク（ICRNN）を提案する。入力から出力への凸性を保証することで、高いモデル化精度を維持しつつ、扱いやすく、グローバルに最適なモデル予測制御（MPC）を実現する。HVAC制御では23.25%のエネルギー削減を達成し、MuJoCoの歩行制御では、最先端のモデルベース強化学習と比較して10%以上の性能向上を達成した。また、学習時間は5倍短縮された。

ABSTRACT

Control of complex systems involves both system identification and controller design. Deep neural networks have proven to be successful in many identification tasks, however, from model-based control perspective, these networks are difficult to work with because they are typically nonlinear and nonconvex. Therefore many systems are still identified and controlled based on simple linear models despite their poor representation capability. In this paper we bridge the gap between model accuracy and control tractability faced by neural networks, by explicitly constructing networks that are convex with respect to their inputs. We show that these input convex networks can be trained to obtain accurate models of complex physical systems. In particular, we design input convex recurrent neural networks to capture temporal behavior of dynamical systems. Then optimal controllers can be achieved via solving a convex model predictive control problem. Experiment results demonstrate the good potential of the proposed input convex neural network based approach in a variety of control applications. In particular we show that in the MuJoCo locomotion tasks, we could achieve over 10% higher performance using 5* less time compared with state-of-the-art model-based reinforcement learning method; and in the building HVAC control example, our method achieved up to 20% energy reduction compared with classic linear models.

研究の動機と目的

複雑なシステムのデータ駆動型制御において、モデルの精度と計算の扱いやすさのトレードオフを解消すること。
モデルベース制御における信頼性の高い最適化を妨げる、従来のニューラルネットワークの非凸性を克服すること。
入力に関して凸であるニューラルネットワークアーキテクチャを構築し、凸MPCを用いてグローバルに最適な制御を可能にすること。
再帰構造を用いて時間的依存性をモデル化することで、凸ニューラルネットワークの適用範囲を動的システムのモデリングに拡大すること。
線形モデルや従来のRNNと比較して、実世界の制御タスク（建物のHVAC管理やロボットの歩行制御など）において優れた性能を示すこと。

提案手法

入力に関して凸である入力凸再帰的ニューラルネットワーク（ICRNN）を提案し、制御のための凸最適化を可能にする。
予測出力と実際のシステム出力の平均二乗誤差を最小化するように、確率的勾配降下法を用いてICRNNを学習する。
学習済みICRNNを、グローバル最適性が保証される凸モデル予測制御（MPC）フレームワーク内のシステムダイナミクスの表現に用いる。
最適制御問題を、システムダイナミクスと物理的制約を満たす凸最適化問題として定式化する。
勾配ベース最適化を用いて、有限時間スパン内でMPC問題を解き、ICRNNの凸性を活かして信頼性の高い収束を実現する。
入力凸ネットワークフレームワークを再帰的アーキテクチャに拡張し、動的システムにおける時間的依存性をモデル化する。

実験結果

リサーチクエスチョン

RQ1複雑な力学的システムに対して、高いモデル化精度を維持しつつ、入力に関して凸である深層ニューラルネットワークアーキテクチャを設計できるか？
RQ2凸ニューラルネットワークは、リアルタイム制御応用において、グローバルに最適かつ計算的に扱いやすいモデル予測制御を可能にするか？
RQ3ICRNNに基づく制御は、線形モデルや従来のRNNと比較して、制御精度およびエネルギー効率の面で優れているか？
RQ4ICRNNは非線形な建物HVACダイナミクスを効果的にモデル化でき、制約付き環境でも安定的かつ最適な制御行動を生成できるか？
RQ5ネットワークアーキテクチャの凸性が、制御タスクにおける最適化の信頼性および収束性をどの程度向上させるか？

主な発見

ICRNNは、建物HVACダイナミクスのモデリングにおいて、テスト時の平均二乗誤差（RMSE）が0.054を達成し、従来のRNN（0.051）と同等の性能を示し、線形RCモデル（0.240）と比べて顕著に優れている。
ICRNNに基づくMPCは、温度制約下で建物のエネルギー消費を23.25%削減した。これは、従来のRNN（11.73%の削減）と線形RCモデル（4.07%の削減）を上回った。
ICRNNは安定的で滑らかな制御入力を生成したが、従来のRNNは極めて不規則で不安定な制御信号を出力し、大きな変動を示した。
MuJoCoの歩行制御タスクにおいて、ICRNNベースの手法は、最先端のモデルベース強化学習と比較して10%以上の高い性能を達成したが、学習時間は5倍短縮された。
理論的分析により、ICRNNはすべての凸関数を表現可能であり、凸関数の表現において、区分線形近似と比較して指数関数的に効率的であることが確認された。
ICRNNの凸性により、得られるMPC問題が凸であることが保証され、リアルタイム制御応用においてグローバル最適性と信頼性の高い収束性が実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。