QUICK REVIEW

[論文レビュー] Deep optimal stopping

S. Becker, Patrick Cheridito|arXiv (Cornell University)|Apr 15, 2018

Stochastic processes and financial applications参考文献 51被引用数 7

ひとこと要約

この論文は、モンテカルロサンプルから直接最適停止ルールを学習する深層ニューラルネットワークを用いて、高次元最適停止問題を解く深層学習ベースの手法を提案する。この手法は、多層フィードフォワードネットワークを用いて各時刻における0-1停止意思決定を再帰的にモデル化し、高次元（Bermudanオプションでは最大500次元）および非マルコフ過程（例：分数 Browm運動）においても、精度の高い最適値推定と狭い信頼区間を実現する。

ABSTRACT

In this paper we develop a deep learning method for optimal stopping problems which directly learns the optimal stopping rule from Monte Carlo samples. As such, it is broadly applicable in situations where the underlying randomness can efficiently be simulated. We test the approach on three problems: the pricing of a Bermudan max-call option, the pricing of a callable multi barrier reverse convertible and the problem of optimally stopping a fractional Brownian motion. In all three cases it produces very accurate results in high-dimensional situations with short computing times.

研究の動機と目的

特に高次元または非マルコフ過程における最適停止問題の次元の呪いに対処すること。
パrametric仮定に依存せず、シミュレートされたパスから直接最適停止ルールを学習するスケーラブルな深層学習手法の開発。
ニューラルネットワークポリシーを用いた原価-双対アプローチにより、最適停止値のタイトな下限と上限を提供すること。
従来の手法が失敗する複雑な金融デリバティブおよび非マルコフ過程において、本手法の有効性を示すこと。

提案手法

最適停止時刻を、各時刻における0-1意思決定の列に分解し、深層ニューラルネットワークを用いて可測関数 fθn: Rd → {0,1} としてモデル化する。
確率的勾配上昇法を用いて、期待報酬を最大化することで、最適停止ルールを近似する深層ニューラルネットワークポリシー τΘ を学習する。
原価-双対フレームワークを用いる：下限 ˆL は学習済みポリシー τΘ から計算され、上限 ˆU は [40, 23] の双対法を用いた双対 martingale 近似から導出される。
各意思決定点における将来報酬の期待値を推定するために、ニューラルネットワークを用いて継続価値を再帰的に近似する。
非マルコフ過程（例：分数 Browm運動）に対しては、全パス履歴をマルコフ的状態ベクトルとして表現することで、本手法の適用を可能にする。
バッチ処理と早期停止を用いて、モンテカルロサンプル上で確率的勾配上昇法を用いてネットワークを学習し、収束を保証する。

実験結果

リサーチクエスチョン

RQ1深層学習は、計算効率を保ちながら、高次元マルコフ過程における最適停止ルールをどれほど正確に近似できるか？
RQ2次元が増加する際（d = 2 から 500 まで）、深層ニューラルネットワークポリシーはBermudan max-call オプションの最適値をどれほど正確に推定できるか？
RQ3本手法は、高次元の基礎資産を有するコール可能マルチバリア逆デリバティブのような複雑なデリバティブを処理できるか？
RQ4過去のパス依存性が重要な非マルコフ過程（例：分数 Browm運動）において、本手法はどれほど有効か？
RQ5提案された原価-双対ニューラルネットワークフレームワークを用いて、最適値推定値の周囲にタイトな信頼区間を構築できるか？

主な発見

Bermudan max-call オプションにおいて、d = 500 の場合、下限が 98.243、95%信頼区間 [98.213, 98.263] であり、計算時間は200秒未満であった。
コール可能マルチバリアリバース・コンバーティブルズにおいて、d = 30 の場合、下限が 72.393、95%信頼区間 [71.830, 72.760] であり、学習および上限計算に約103秒を要した。
H = 1.0 の分数 Browm運動において、最適値の推定値は 0.395、95%信頼区間 [0.394, 0.395] であり、理論的正確値 0.39495... と一致した。
H = 0.5 の場合、E[W_H_τ] の推定値は 0.002、95%信頼区間 [0.000, 0.005] であり、理論的結果 E[W_1/2_τ] = 0 と整合的であった。
H = 0.45 の場合、E[W_H_τ] の推定値は 0.071、95%信頼区間 [0.066, 0.075] であり、先行研究のヒューリスティックルールよりも顕著に高い値であった。
すべてのテストケースにおいて高い精度を達成し、下限と上限が常に近くに位置しており、タイトな信頼区間と信頼性の高い推定を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。