QUICK REVIEW

[論文レビュー] Optimistic Bull or Pessimistic Bear: Adaptive Deep Reinforcement Learning for Stock Portfolio Allocation

Xinyi Li, Yinchuan Li|arXiv (Cornell University)|Jun 20, 2019

Stock Market Forecasting Methods被引用数 27

ひとこと要約

本稿では、楽観的（ブルマーケット）または悲観的（ベアマーケット）な予測誤差に基づいて学習率を動的に調整する、進化した深層強化学習フレームワーク「Adaptive DDPG」を提案する。この手法は、株式ポートフォリオの最適化において顕著な改善をもたらし、2001年から2018年までのダウ・ジョーンズ30種平均株価において、年間リターン18.84%、シャープレシオ1.63を達成し、アンダーライニングDDPG、ダウ・ジョーンズ工業平均株価、および従来の平均・分散戦略を上回った。

ABSTRACT

Portfolio allocation is crucial for investment companies. However, getting the best strategy in a complex and dynamic stock market is challenging. In this paper, we propose a novel Adaptive Deep Deterministic Reinforcement Learning scheme (Adaptive DDPG) for the portfolio allocation task, which incorporates optimistic or pessimistic deep reinforcement learning that is reflected in the influence from prediction errors. Dow Jones 30 component stocks are selected as our trading stocks and their daily prices are used as the training and testing data. We train the Adaptive DDPG agent and obtain a trading strategy. The Adaptive DDPG's performance is compared with the vanilla DDPG, Dow Jones Industrial Average index and the traditional min-variance and mean-variance portfolio allocation strategies. Adaptive DDPG outperforms the baselines in terms of the investment return and the Sharpe ratio.

研究の動機と目的

取引コスト、非合理的な投資家行動、正規分布でないリターン分布といった現実の市場非効率性に起因する、従来のポートフォリオ最適化手法の限界を解消すること。
高次元で連続的な金融状態空間において、古典的動的計画法やマルコフ決定過程のアプローチに見られるスケーラビリティおよびモデル感度の問題を克服すること。
行動ファイナンスの知見（具体的には、市場センチメント：ブルショット対ベアショット）を深層強化学習に統合し、異なる市場レジーム下での適応的意思決定を向上させること。
連続的アクション空間と市場ダイナミクスからのリアルタイムフィードバックを用いて、最適な株式割当ポリシーを学習する強化学習エージェントを開発すること。
リターンおよびリスク調整後のパフォーマンス指標において、アンダーライニングDDPG、インデックスベンチマーク、および古典的な最小分散・平均・分散戦略と比較して優れた性能を示すことを実証すること。

提案手法

連続的状態空間およびアクション空間における学習安定化を図るため、経験リプレイとターゲットネットワークを備えたアクトア・クリティックアーキテクチャを採用した、深層決定的ポリシー勾配（DDPG）アルゴリズムをベースフレームワークとして採用する。
Rescorla-Wagnerモデルにインspiredされた、予測誤差の正負（楽観的／悲観的）に応じて学習率を調整する、新規の適応的学習率メカニズムを導入し、市場センチメントに応じた学習アーマチュアの制御を可能にする。
正のフィードバック（ブルショット）用のノイズプロセス$\mathcal{N}^+$と、負のフィードバック（ベアショット）用のノイズプロセス$\mathcal{N}^-$を別々に定義し、市場状態に応じた非対称的学習ダイナミクスを実現する。
適応的学習率ルールを適用：テスト中は$\alpha^+ = 1$および$\alpha^- = 0$とし、好調な結果に対してはより能動的に反応し、悪化した結果に対しては慎重に反応するようにする。
DDPGフレームワークにおける学習安定化と収束改善のため、ターゲットネットワーク更新ルール$\theta^{\mu'} \leftarrow \tau\theta^{\mu} + (1 - \tau)\theta^{\mu'}$を採用する。
2001年から2013年までのダウ・ジョーンズ工業平均30銘柄の終値を用いてエージェントを学習し、2014年から2018年の未学習データに対して性能を評価し、リターン、ボラティリティ、シャープレシオを主な指標とする。

実験結果

リサーチクエスチョン

RQ1適応的深層強化学習エージェントは、現実の動的株式市場において、アンダーライニングDDPGおよび従来のポートフォリオ戦略を上回ることができるか？
RQ2ブルショット対ベアショットという市場センチメントを非対称的学習率で統合することで、ポートフォリオパフォーマンスおよびリスク調整リターンにどのような影響を与えるか？
RQ3固定学習率と比較して、適応的学習メカニズムは、異なる市場レジームにおいて、どの程度のロバストネスと一般化性能を向上させるか？
RQ4行動ファイナンスの原則を深層強化学習に統合することで、標準的な平均・分散最適化を上回る投資成果を達成できるか？
RQ5提案手法は、ベンチマークのダウ・ジョーンズ工業平均株価および最小分散・平均・分散戦略と比較して、より高いシャープレシオと累積リターンを達成できるか？

主な発見

Adaptive DDPGエージェントは、テストデータ（2014年～2018年）において年間リターン18.84%を達成し、アンダーライニングDDPG（14.71%）、ダウ・ジョーンズ工業平均（11.36%）、平均・分散戦略（15.86%）を大きく上回った。
シャープレシオ1.63を記録し、アンダーライニングDDPG（1.01）、DJIA（0.91）、最小分散（0.99）、平均・分散（1.25）を大きく上回り、リスク調整後のパフォーマンスが優れていることを示した。
Adaptive DDPGにおける最終ポートフォリオ価値は21,880に達し、アンダーライニングDDPG（18,156）、DJIA（16,089）、最小分散（16,333）、平均・分散（19,632）を上回った。
Adaptive DDPGの年間標準誤差11.59%は中程度のボラティリティを示し、他の手法と比較してリターンとリスクのバランスが良好であることを示した。
正の予測誤差（ブルショットセンチメント）に応じて学習アーマチュアを増幅させる適応的学習メカニズムが、上昇市場における収束加速とパフォーマンス向上に不可欠であった。
結果から、センチメントに配慮した強化学習は、特にボラティリティが高く、レジームシフトが生じる市場環境において、モデルのロバストネスと適応性を向上させることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。