QUICK REVIEW

[論文レビュー] Deep Learning Approximation for Stochastic Control Problems

Jiequn Han, E Weinan|arXiv (Cornell University)|Nov 2, 2016

Reinforcement Learning in Robotics参考文献 15被引用数 118

ひとこと要約

この論文は、モデルダイナミクスを通じてサブネットワークを積み重ねることで高次元の有限ホorizon確率制御問題に対し時変制御を直接学習する深層ニューラルネットワーク手法を提案し、金融とエネルギー貯蔵のベンチマークでほぼ最適解に近い結果を達成する。

ABSTRACT

Many real world stochastic control problems suffer from the "curse of dimensionality". To overcome this difficulty, we develop a deep learning approach that directly solves high-dimensional stochastic control problems based on Monte-Carlo sampling. We approximate the time-dependent controls as feedforward neural networks and stack these networks together through model dynamics. The objective function for the control problem plays the role of the loss function for the deep neural network. We test this approach using examples from the areas of optimal trading and energy storage. Our results suggest that the algorithm presented here achieves satisfactory accuracy and at the same time, can handle rather high dimensional problems.

研究の動機と目的

有限ホライズン確率制御問題における次元の呪いへ対処する。
深層ニューラルネットワークを用いて状態の関数として最適制御を直接学習する。
価値関数の近似を避け、制御の近似をエンドツーエンドで行う。
ペナルティベースの学習スキームを通じてモデルダイナミクスと制約を組み込む。
金融とエネルギー貯蔵の高次元問題に対するスケーラビリティを示す。

提案手法

時刻依存の制御 a_t(s_t) をニューラルサブネットワークで表現し、時を横断して積み重ねて深いネットワークを形成する。
モンテカルロサンプリングを用いて確率的軌道を生成し、総コスト C_T を訓練損失としてバックプロパゲーションする。
SGD/Adam でサブネットワークを訓練し、隠れ層にバッチ正規化とReLU活性化を適用する。
制約は、それが満たされない場合の二乗罰則項 P_e と P_ie を総コストに加えることで罰して組み込む。
価値関数近似を行わず、制御の上で直接作用させ、状態を s_{t+1}=s_t+b_t(s_t,a_t)+ξ_{t+1} で伝搬する。
状態空間/制御空間を離散化せずに高次元問題を扱う。

実験結果

リサーチクエスチョン

RQ1時系列の制御を近似する深層フィードフォワードネットワークは、高次元の確率制御問題でほぼ最適な性能を達成できるか。
RQ2確率動的を伴う高次元ポートフォリオとエネルギー貯蔵システムに対してアプローチはスケールするか。
RQ3ネットワークのアーキテクチャ（深さ、幅）と訓練設定が解の質と収束に与える影響はどうなるか。
RQ4制約をペナルティ項で制御中心の深層学習定式化によりどれだけ効果的に課すことができるか。
RQ5提案手法を動的計画法/ADPおよび離散的ルックアップ表のベースラインと比較した場合の性能はどうなるか。

主な発見

本手法は高次元ポートフォリオ取引問題においてほぼ最適な実行コストをもたらし、解析解との相対コストは horizons T=20,25,30 に対してそれぞれ 1.001, 1.002, 1.009。
取引の例では相対的制御誤差が小さく維持される（T=20とT=25で3.7%、T=30で8.6%）。
エネルギー貯蔵割り当てベンチマークでは、平均相対報酬が T=10 と T=15 でそれぞれ 1.002 と 0.995 を達成し、実行時間は数千秒程度。
多次元のエネルギー貯蔵ケース（機器数 n が最大で50）では、報酬はほぼ最適を維持（例：n=30で0.926、n=40で0.965）し、計算時間は数千〜 ten thousand 秒のオーダーでスケールする。
このアプローチは罰則を介して複数の制約を扱い、離散化の前提を緩和した場合にはルックアップ表ベースラインを上回ることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。