QUICK REVIEW

[論文レビュー] Deep Learning Stock Volatility with Google Domestic Trends

Ruoxuan Xiong, Eric Nichols|arXiv (Cornell University)|Dec 15, 2015

Stock Market Forecasting Methods参考文献 22被引用数 46

ひとこと要約

この論文では、市場データとGoogle国内の検索トレンドを統合することで、S&P 500ボラティリティを予測する長短期記憶（LSTM）ニューラルネットワークモデルを提案する。相互情報量を最大化する最適な観測および正規化スキームを用いることで、LSTMは保留テストセットで24.2%の平均絶対誤差率（MAPE）を達成し、線形リッジ／ラッソおよびGARCHベンチマークを最低31%以上上回る性能を示した。

ABSTRACT

We have applied a Long Short-Term Memory neural network to model S&P 500 volatility, incorporating Google domestic trends as indicators of the public mood and macroeconomic factors. In a held-out test set, our Long Short-Term Memory model gives a mean absolute percentage error of 24.2%, outperforming linear Ridge/Lasso and autoregressive GARCH benchmarks by at least 31%. This evaluation is based on an optimal observation and normalization scheme which maximizes the mutual information between domestic trends and daily volatility in the training set. Our preliminary investigation shows strong promise for better predicting stock behavior via deep learning and neural network models.

研究の動機と目的

高いノイズと非線形ダイナミクスが存在する中でのS&P 500ボラティリティ予測の精度を向上させること。
Google国内の検索トレンドが、ファイナンシャルモデリングにおけるパブリックセンチメントおよびマクロ経済状態の有効な代理指標として機能するかどうかを調査すること。
特にLSTMのようなディープラーニングモデルが、従来の線形および自己回帰モデル（例：GARCH）と比較して、どのように性能を発揮するかを評価すること。
入力特徴量の予測力を最大化する最適な観測および正規化スキームを特定すること。

提案手法

ボラティリティ予測における時系列依存性をモデル化するために、長短期記憶（LSTM）再帰的ニューラルネットワークを採用する。
25件のGoogle国内検索トレンド（例：「破産」、「住宅ローン」、「クレジットカード」）を外部マクロ経済センチメント指標として統合する。
日次リターンと高値・安値・始値・終値ボラティリティ推定器（式2）を用いて、実現ボラティリティを算出する。
入力特徴量の最適な観測周波数および正規化手法を決定するため、相互情報量に基づく最適化スキームを適用する。
LSTMを全データの70%（2004年10月19日から2012年4月9日まで）で訓練し、残りの30%（2012年4月12日から2015年7月24日まで）でテストする。
RMSEおよびMAPE指標を用いて、モデル性能をリッジ／ラッソ回帰およびGARCH(1,1)ベンチマークと比較する。

実験結果

リサーチクエスチョン

RQ1Google国内の検索トレンドは、S&P 500ボラティリティ予測の精度を向上させることができるか？
RQ2LSTMモデルは、ボラティリティ予測において、従来の線形および自己回帰モデル（例：GARCH）を上回る性能を示すか？
RQ3この文脈において、予測性能を最大化するための最適な観測および正規化スキームは何か？
RQ4外部センチメントデータを統合した際、LSTMモデルはどの程度の過学習を回避しているか？

主な発見

LSTMモデルはテストセットで平均絶対誤差率（MAPE）24.2%を達成し、リッジ／ラッソおよびGARCHベンチマーク（最低でも34.9%）を著しく上回った。
相互情報量を最大化することで特定された最適な入力スキームにより、検索トレンドの時間的ダイナミクスとボラティリティ変動が一致し、モデル性能が向上した。
訓練セットのMAPE（20%）がテストセットのMAPE（24.2%）に非常に近いため、過学習は最小限に抑えられており、安定した一般化性能を示した。
ボラティリティ、リターン、および「投資」や「bnkrpt」などのトレンドを含む6つの主要特徴量への次元削減により、MAPEは27.2%に上昇した。これにより、全特徴量の入力を通じた価値が裏付けられた。
予測誤差は平均がゼロであり、有意な自己相関は認められないが、コルモゴロフ＝スミルノフ検定で正規性に失敗（p ≪ 1%）、非ガウス誤差構造が示唆された。
さまざまな入力設定に対してもモデルの性能は安定しており、LSTMは一貫して線形および自己回帰的ベンチマークを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。