Skip to main content
QUICK REVIEW

[論文レビュー] Reinforcement Learning for Optimal Execution when Liquidity is Time-Varying

Andrea Macrì, Fabrizio Lillo|arXiv (Cornell University)|Feb 19, 2024
Scheduling and Optimization Algorithms被引用数 5
ひとこと要約

この論文は時間変動の流動性を前提とした Almgren-Chriss フレームワークに対する Double Deep Q-Learning を適用し、モデルに依存しないポリシー学習が既知の解と一致し、ダイナミクスが未知のときにはベンチマークを上回ることを示しています。

ABSTRACT

Optimal execution is an important problem faced by any trader. Most solutions are based on the assumption of constant market impact, while liquidity is known to be dynamic. Moreover, models with time-varying liquidity typically assume that it is observable, despite the fact that, in reality, it is latent and hard to measure in real time. In this paper we show that the use of Double Deep Q-learning, a form of Reinforcement Learning based on neural networks, is able to learn optimal trading policies when liquidity is time-varying. Specifically, we consider an Almgren-Chriss framework with temporary and permanent impact parameters following several deterministic and stochastic dynamics. Using extensive numerical experiments, we show that the trained algorithm learns the optimal policy when the analytical solution is available, and overcomes benchmarks and approximated solutions when the solution is not available.

研究の動機と目的

  • 動的で潜在的な流動性条件の下で、堅牢な最適実行の必要性を動機づける。
  • 正確なインパクトパラメータの知識がなくても実行ポリシーを学習できる、モデル非依存の強化学習フレームワークを開発する。
  • 決定論的および確率的な流動性ダイナミクスの下で、分析解およびベンチマークと比較して DDQL の性能を評価する。
  • 定常市場で DDQL が TWAP に似た戦略を回復できることを示し、インパクトが変化する場合には性能が向上することを示す。

提案手法

  • 決定論的および確率的ダイナミクスを含む、時間変動する恒久的および一時的インパクトパラメータを用いた Almgren-Chriss ベースラインを使用する。
  • 安定性のために二つのニューラルネットワーク(Q-main と Q-target)と経験再生を用いた Double Deep Q-Learning を実装する。
  • 状態を (q_t, t) または (q_t, t, S_{t-1})、行動を残在庫内の売却量 v_t と定義する。
  • 探索と活用(epsilon-greedy)を用いた M エピソードで訓練し、割引率 gamma=1(リスク中立)で TD ターゲットを用いて更新する。
  • 定常、決定論的時間変動、確率的インパクト設定において、解析解(既知の場合)および TWAP ベンチマークと DDQL の結果を比較する。

実験結果

リサーチクエスチョン

  • RQ1流動性が時間変動しインパクトが潜在的なとき、DDQL は最適実行ポリシーを学習できるか?
  • RQ2インパクトが一定の場合に既知の最適戦略を回復し、インパクトダイナミクスが未知または複雑なときにはベンチマークを上回れるか?
  • RQ3価格や他の特徴を状態に組み込むことが、異なる流動性ダイナミクス下でDDQLの性能にどう影響するか?
  • RQ4モデル非依存のDDQLエージェントは、決定論的および確率的なインパクト経路にどの程度適応して、堅牢な清算戦略を生み出せるか。

主な発見

特徴量E[IS] (A&C)E[IS] (DDQL)Delta P&L (bp)Std.dev
Q,T0.26070.2698-0.4552.5
Q,T,S0.26070.2652-0.2251.6
  • 一定インパクト設定では、DDQL はほぼTWAPコストを再現し、ΔP&L が小さい(例: Q,T で -0.455 bp、2.5σ)。
  • 中間価格を特徴量として含めても一定インパクトの状況ではTWAPを大きく上回らず(ΔP&L は約 -0.225 〜 -0.455 bp)。
  • 増加する決定論的インパクトの下で、Q,T,S 特徴を持つ DDQL は理論的最適解にほぼ一致し、ΔP&L は約 2 bp(理論と比較)となる。
  • 減少する決定論的インパクトの下で、Q,T,S 特徴を持つ DDQL は TWAP を上回り、理論的最適解に近づく。価格特徴を使うとさらなる利得が得られるが、依然として若干最適ではない。
  • 全体として、DDQL はモデルに頑健な学習を示し、時間変動の流動性に適応し、インパクトダイナミクスが完全には知られていない場合にベンチマークを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。