QUICK REVIEW

[論文レビュー] Multi-Agent Deep Reinforcement Learning for Liquidation Strategy Analysis

Wenhang Bao, Xiaoyang Liu|arXiv (Cornell University)|Jun 24, 2019

Financial Markets and Investment Strategies被引用数 27

ひとこと要約

本稿では、動的市場における取引者間の相互作用をモデル化することで、株式の流動化戦略を最適化するマルチエージェント深層強化学習フレームワークを提案する。Almgren-Chrissモデルをマルチエージェント環境に拡張し、競争的行動が個々のおよび集団的なパフォーマンスを劣化させること、協調戦略が独立した取引を上回らないこと、実際の流動化分析にマルチエージェント強化学習の必要性を浮き彫りにしている。

ABSTRACT

Liquidation is the process of selling a large number of shares of one stock sequentially within a given time frame, taking into consideration the costs arising from market impact and a trader's risk aversion. The main challenge in optimizing liquidation is to find an appropriate modeling system that can incorporate the complexities of the stock market and generate practical trading strategies. In this paper, we propose to use multi-agent deep reinforcement learning model, which better captures high-level complexities comparing to various machine learning methods, such that agents can learn how to make the best selling decisions. First, we theoretically analyze the Almgren and Chriss model and extend its fundamental mechanism so it can be used as the multi-agent trading environment. Our work builds the foundation for future multi-agent environment trading analysis. Secondly, we analyze the cooperative and competitive behaviours between agents by adjusting the reward functions for each agent, which overcomes the limitation of single-agent reinforcement learning algorithms. Finally, we simulate trading and develop an optimal trading strategy with practical constraints by using a reinforcement learning method, which shows the capabilities of reinforcement learning methods in solving realistic liquidation problems.

研究の動機と目的

大規模な株式流動化における動的で相互作用的な市場行動を捉えることができない単一エージェント強化学習の限界を解決すること。
Almgren-Chriss最適流動化モデルをマルチエージェント環境に拡張し、現実の市場の複雑さをよりよく反映すること。
エージェント間の協調的および競争的関係が、全体的および個々の流動化パフォーマンスに与える影響を分析すること。
シミュレートされたマルチエージェント取引環境において、深層強化学習を用いて実用的で適応可能な流動化戦略を開発すること。
マルチエージェント強化学習が、現実の市場相互作用とコスト構造をモデル化する上で、単一エージェントアプローチを上回ることを示すこと。

提案手法

Almgren-Chrissモデルをマルチエージェント設定に拡張し、在庫、価格インパクト、市場インパクトを含む状態ダイナミクスを形式化することで、流動化問題を定式化する。
連続的行動空間におけるマルチエージェントフレームワークで使用する強化学習アルゴリズムとして、深層決定的方策勾配（DDPG）を採用する。
協調的および競争的エージェント行動をモデル化するための報酬関数を設計し、戦略的相互作用の分析を可能にする。
価格インパクトを伴う動的市場において、試行錯誤を通じて最適な流動化経路を学習するシミュレートされたマルチエージェント環境を実装する。
環境の動的状態を表すために、在庫、時間、市場インパクトパラメータを含む状態ベクトルを用いる。
経験リプレイとターゲットネットワークを用いて学習を安定化させ、エージェントのポリシーと価値関数を別々に扱うアクター・クリティックアーキテクチャを採用する。

実験結果

リサーチクエスチョン

RQ1共通の目的を持つ複数エージェントの導入が、単一エージェント設定と比較して流動化の効率性とコストに与える影響は何か？
RQ2マルチエージェント流動化環境におけるエージェント間の協調的行動と競争的行動のパフォーマンスへの影響は何か？
RQ3マルチエージェント深層強化学習は、市場に他の取引者が存在する状況に適応する最適な流動化戦略を学習できるか？
RQ4報酬関数の設計が、シミュレートされた流動化環境におけるエージェント行動と全体のシステムパフォーマンスに与える影響は何か？
RQ5マルチエージェント強化学習は、伝統的な単一エージェント強化学習およびAlmgren-Chrissのような解析的モデルに比べて、現実の市場ダイナミクスをどの程度うまく捉えられるか？

主な発見

エージェント間の競争的行動により、期待ショートフォールの合計が20％以上も上昇し、すべてのエージェントのパフォーマンスが劣化することが判明した。
競争的状況では、1つのエージェントが1日目に全株式を売却し、もう1つのエージェントに価格インパクトコストの大部分を負担させることで、個々および集団の執行コストが上昇する。
競合相手が登場すると、最適な流動化経路が著しく変化する：独立して訓練されたエージェントが通常20日間で流動化を行うのに対し、競合が存在する場合には市場インパクトを避けるために最初の2日間で全株式を売却する。
協調戦略は独立した訓練を上回らないことが判明し、このマルチエージェント設定では相互協調がより良い結果をもたらさないことが示された。
マルチエージェント環境は取引者の戦略的依存関係をうまく捉えており、競争がすべての当事者にとって非効率な結果をもたらすことが明らかになった。
単純化された設定にもかかわらず、強化学習エージェントは競合の行動に動的に適応する流動化戦略を達成しており、フレームワークが複雑な市場相互作用をモデル化できる能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。