Skip to main content
QUICK REVIEW

[论文解读] Deep optimal stopping

S. Becker, Patrick Cheridito|arXiv (Cornell University)|Apr 15, 2018
Stochastic processes and financial applications参考文献 51被引用 7
一句话总结

本文提出一种基于深度学习的方法,通过从蒙特卡洛样本中直接训练深度神经网络来近似最优停止规则,以解决高维最优停止问题。该方法使用多层前馈网络递归建模0-1停止决策,即使在高维(如Bermudan期权达500维)和非马尔可夫过程(如分数布朗运动)下,也能实现对最优值的精确估计,并具有紧密的置信区间。

ABSTRACT

In this paper we develop a deep learning method for optimal stopping problems which directly learns the optimal stopping rule from Monte Carlo samples. As such, it is broadly applicable in situations where the underlying randomness can efficiently be simulated. We test the approach on three problems: the pricing of a Bermudan max-call option, the pricing of a callable multi barrier reverse convertible and the problem of optimally stopping a fractional Brownian motion. In all three cases it produces very accurate results in high-dimensional situations with short computing times.

研究动机与目标

  • 解决最优停止问题中的维数灾难,特别是针对高维或非马尔可夫过程。
  • 开发一种可扩展的深度学习方法,直接从模拟路径中学习最优停止规则,而无需依赖参数假设。
  • 利用带神经网络策略的原始-对偶方法,为最优停止值提供紧致的下界和上界。
  • 在传统方法失效的复杂金融衍生品和非马尔可夫过程中,证明该方法的有效性。

提出的方法

  • 将最优停止时间分解为每个时间步的0-1决策序列,使用深度神经网络建模可测函数 fθn: Rd → {0,1}。
  • 通过随机梯度上升最大化期望收益,训练深度神经网络策略 τΘ 以近似最优停止规则。
  • 采用原始-对偶框架:下界 ˆL 由训练后的策略 τΘ 计算得出,上界 ˆU 则通过 [40, 23] 的对偶方法并结合对偶鞅近似推导得出。
  • 使用神经网络递归近似延续值,以在每个决策点估计未来收益的期望。
  • 对于分数布朗运动等非马尔可夫过程,将完整路径历史表示为马尔可夫状态向量,以使方法可行。
  • 在蒙特卡洛样本上使用随机梯度上升进行网络训练,结合批量处理和早停策略以确保收敛。

实验结果

研究问题

  • RQ1深度学习能否在计算效率的前提下,近似高维马尔可夫过程中最优停止规则?
  • RQ2深度神经网络策略在维度不断增加(d = 2 到 500)的情况下,对Bermudan最大看涨期权最优值的估计精度如何?
  • RQ3该方法能否处理如具有高维底层资产的可赎回多障碍反向可转换票据等复杂衍生品?
  • RQ4对于路径依赖性至关重要的非马尔可夫过程(如分数布朗运动),该方法的有效性如何?
  • RQ5能否利用所提出的原始-对偶神经网络框架,在最优值估计周围构建紧密的置信区间?

主要发现

  • 对于Bermudan最大看涨期权,在 d = 500 时,方法获得下界 98.243,95% 置信区间 [98.213, 98.263],计算时间低于 200 秒。
  • 对于可赎回多障碍反向可转换票据,在 d = 30 时,方法获得下界 72.393,95% 置信区间 [71.830, 72.760],训练和上界计算耗时约 103 秒。
  • 对于 H = 1.0 的分数布朗运动,估计的最优值为 0.395,95% 置信区间 [0.394, 0.395],与精确理论值 0.39495... 一致。
  • 在 H = 0.5 时,方法估计 E[W_H_τ] = 0.002,95% 置信区间 [0.000, 0.005],与理论结果 E[W_1/2_τ] = 0 一致。
  • 在 H = 0.45 时,方法估计 E[W_H_τ] = 0.071,95% 置信区间 [0.066, 0.075],显著高于先前研究中启发式规则的估计结果。
  • 在所有测试案例中,该方法均表现出高精度,下界与上界始终紧密接近,表明置信区间紧凑且估计可靠。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。