Skip to main content
QUICK REVIEW

[論文レビュー] Cryptocurrency Portfolio Management with Deep Reinforcement Learning

Zhengyao Jiang, Jinjun Liang|arXiv (Cornell University)|Dec 5, 2016
Stock Market Forecasting Methods参考文献 6被引用数 41
ひとこと要約

本論文では、歴史的暗号通貨価格データから直接ポートフォリオウェイトを出力する畳み込みニューラルネットワーク(CNN)を用いた、モデルフリーのディープレインフォースメントラーニング手法を提案する。累積リターンを最大化するために決定的方策勾配法で訓練する。ポロニエックスにおける30分間のバックテストでは、CNNエージェントは1.8か月間で16.3倍のリターンを達成し、大多数のベンチマークを下回るリスクで上回ったが、純リターンではPAMRにわずかに劣りながらも、より高いシャープレシオを達成した。

ABSTRACT

Portfolio management is the decision-making process of allocating an amount of fund into different financial investment products. Cryptocurrencies are electronic and decentralized alternatives to government-issued money, with Bitcoin as the best-known example of a cryptocurrency. This paper presents a model-less convolutional neural network with historic prices of a set of financial assets as its input, outputting portfolio weights of the set. The network is trained with 0.7 years' price data from a cryptocurrency exchange. The training is done in a reinforcement manner, maximizing the accumulative return, which is regarded as the reward function of the network. Backtest trading experiments with trading period of 30 minutes is conducted in the same market, achieving 10-fold returns in 1.8 months' periods. Some recently published portfolio selection strategies are also used to perform the same back-tests, whose results are compared with the neural network. The network is not limited to cryptocurrency, but can be applied to any other financial markets.

研究の動機と目的

  • 金融理論や仮定に依存せず、市場の価格データから直接学習するモデルフリーでエンドツーエンドのポートフォリオ管理システムの開発を目的とする。
  • ディープレインフォースメントラーニングにおける連続的ポートフォリオ割り当ての分野で、離散的アクション空間とQ関数推定の限界を克服することを目的とする。
  • 特に暗号通貨取引所のようなボラティリティの高い環境において、ディープラーニングを用いてスケーラブルで適応的なポートフォリオ取引を実現することを目的とする。
  • 本手法の性能を、実世界のバックテスト環境における確立されたポートフォリオ選択アルゴリズムと比較して評価することを目的とする。

提案手法

  • 畳み込みニューラルネットワーク(CNN)が、複数の金融資産の生の歴史的価格行列を入力として受け取り、市場のパターンからポートフォリオウェイトを学習する。
  • Q関数推定を回避するため、累積ポートフォリオリターンに基づく直接的な報酬関数を用いて、決定的方策勾配(DPG)アルゴリズムでネットワークを訓練する。
  • 報酬関数は、資産の累積リターンの対数として定義され、富の増加を促進するとともにリスクを最小化する。
  • トレーニングはポロニエックス暗号通貨取引所の0.7年分の価格データを用い、バックテストは30分間の取引インターバルで実施された。
  • ハイパーパramータチューニングとモデル選択には交差検証が用いられたが、トレーニングデータとテストデータの時間的近接性が、性能評価のジレンマを引き起こした。
  • 本手法は、暗号通貨に限らず、あらゆる金融市場に拡張可能であるように設計されている。

実験結果

リサーチクエスチョン

  • RQ1ディープレインフォースメントラーニングエージェントは、事前の金融モデリングなしに、生の価格データから直接ポートフォリオウェイトを学習できるか?
  • RQ2モデルフリーで連続的アクションを取るディープレインフォースメントラーニングアプローチは、確立されたポートフォリオ選択アルゴリズムと比較してリターンとリスクの面でどのように異なるか?
  • RQ3トレーニングデータとテストデータの時間的近接性が、学習済み方策の一般化および性能に与える影響は何か?
  • RQ4直接報酬設計を施した決定的方策勾配アプローチは、暗号通貨のような高頻度でボラティリティの高い市場で、既存の手法を上回ることができるか?

主な発見

  • CNNエージェントはバックテスト期間(2016年5月14日〜7月3日)において最終的に16.305倍のポートフォリオ価値を達成し、ユニバーサルポートフォリオや他のベンチマークを顕著に上回った。
  • パッシブアグレッシブ・ミーンリバージョン(PAMR)戦略に比べて累積リターンは低かったが、シャープレシオ(0.296)は高く、最大ドローダウンも低く、リスク調整後のパフォーマンスが優れていた。
  • エージェントのパフォーマンスは、トレーニングセットとテストセットの時間的距離に極めて敏感であり、テスト期間が近いほど良い結果が得られた。これは、有効期限が限定された時間的有効性を示唆している。
  • クロスバリデーションとテストセットの両方で、異なるエポックで過学習が発生した。これは、過学習を抑制するのと短期市場パターンを保持するのとの間のトレードオフを示している。
  • 本手法は、事前に定義されたモデルや市場行動に関する仮定に依存しないため、異なる金融市場へのスケーラビリティと適応性を示した。
  • 小さなトレーニングデータセットと限定された資産多様性により、ネットワークの深さが制限された。これは、より大規模で多様なデータセットを用いることでさらなる改善が可能であることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。