QUICK REVIEW

[论文解读] Deep Learning Approximation for Stochastic Control Problems

Jiequn Han, E Weinan|arXiv (Cornell University)|Nov 2, 2016

Reinforcement Learning in Robotics参考文献 15被引用 118

一句话总结

该论文提出一种深度神经网络方法，通过在模型动力学中堆叠子网络，直接学习高维有限时域随机控制问题的随时间变化控制，在金融与能源存储基准中实现接近最优的结果。

ABSTRACT

Many real world stochastic control problems suffer from the "curse of dimensionality". To overcome this difficulty, we develop a deep learning approach that directly solves high-dimensional stochastic control problems based on Monte-Carlo sampling. We approximate the time-dependent controls as feedforward neural networks and stack these networks together through model dynamics. The objective function for the control problem plays the role of the loss function for the deep neural network. We test this approach using examples from the areas of optimal trading and energy storage. Our results suggest that the algorithm presented here achieves satisfactory accuracy and at the same time, can handle rather high dimensional problems.

研究动机与目标

解决有限时域随机控制问题中的维度灾难。
直接用深度神经网络将最优控制学习为状态的函数。
通过端到端地专注于控制近似来避免价值函数近似。
通过基于惩罚的训练方案将模型动力学和约束纳入其中。
展示在金融与能源存储领域的高维问题上的可扩展性。

提出的方法

用神经子网络表示时间相关的控制 a_t(s_t)，并将它们跨时间堆叠形成一个深度网络。
使用 Monte-Carlo 采样生成随机轨迹，并将总成本 C_T 反向传播作为训练损失。
用 SGD/Adam 训练子网络，在隐藏层应用批量归一化和 ReLU 激活函数。
通过对违规行为施加二次惩罚项 P_e 和 P_ie 并加入到累积成本来纳入约束。
直接对控制操作（无价值函数近似）并通过 s_{t+1}=s_t+b_t(s_t,a_t)+ξ_{t+1} 传播状态。
在不对状态/控制空间离散化的情况下处理高维问题。

实验结果

研究问题

RQ1一个近似时间相关控制的深度前馈网络是否能够在高维随机控制问题中实现接近最优的性能？
RQ2在随机动力学下，该方法在高维投资组合和能源存储系统上的可扩展性有多好？
RQ3网络结构（深度、宽度）和训练设置对解的质量和收敛性的影响是什么？
RQ4在以控制为中心的深度学习公式中，通过惩罚项来强制约束的效果如何？
RQ5在基准问题中，所提出的方法与动态规划/近似动态规划（ADP）以及离散查找表基线相比如何？

主要发现

该方法在高维投资组合交易问题中产生接近最优的执行成本，相对于解析解的相对成本在T=20、25、30时分别为 1.001、1.002、1.009。
在交易示例中，相对控制误差保持较小（T=20 和 T=25 时为 3.7%；T=30 时为 8.6%）。
在能源存储分配基准中，该方法在 T=10 和 T=15 时分别实现平均相对收益 1.002 和 0.995，运行时间在几千秒级。
对于多维能源存储情形（设备数 n 最多 50），该方法保持接近最优的奖励（例如 n=30 时 0.926，n=40 时 0.965），计算时间随之扩展（大约几千到一万秒量级）。
该方法通过惩罚项处理多重约束，在放宽离散化假设时可以超越查表基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。