Skip to main content
QUICK REVIEW

[论文解读] Deep Learning Stock Volatility with Google Domestic Trends

Ruoxuan Xiong, Eric Nichols|arXiv (Cornell University)|Dec 15, 2015
Stock Market Forecasting Methods参考文献 22被引用 46
一句话总结

本文提出一种长短期记忆(LSTM)神经网络模型,通过整合谷歌国内搜索趋势与市场数据来预测标普500波动率。采用一种能最大化互信息的最优观测与归一化方案,LSTM在保留测试集上的平均绝对百分比误差(MAPE)达到24.2%,相较于线性岭回归/套索回归和GARCH基准模型,误差降低至少31%。

ABSTRACT

We have applied a Long Short-Term Memory neural network to model S&P 500 volatility, incorporating Google domestic trends as indicators of the public mood and macroeconomic factors. In a held-out test set, our Long Short-Term Memory model gives a mean absolute percentage error of 24.2%, outperforming linear Ridge/Lasso and autoregressive GARCH benchmarks by at least 31%. This evaluation is based on an optimal observation and normalization scheme which maximizes the mutual information between domestic trends and daily volatility in the training set. Our preliminary investigation shows strong promise for better predicting stock behavior via deep learning and neural network models.

研究动机与目标

  • 在高噪声与非线性动态环境下,提升标普500波动率预测的准确性。
  • 探究谷歌国内搜索趋势是否可作为金融建模中公众情绪与宏观经济状况的有效代理指标。
  • 评估深度学习模型(特别是LSTM)相较于传统线性模型与自回归模型(如GARCH)的性能表现。
  • 识别能最大化输入特征预测能力的最优观测与归一化方案。

提出的方法

  • 采用长短期记忆(LSTM)循环神经网络,以捕捉波动率预测中的时间序列依赖关系。
  • 将25项谷歌国内搜索趋势(如“破产”、“抵押贷款”、“信用卡”)作为外部宏观经济情绪指标引入。
  • 使用日度对数收益与高低开放收盘波动率估计量(公式2)计算实现波动率。
  • 基于互信息设计优化方案,以确定输入特征的最优观测频率与归一化方法。
  • 在70%的数据上进行训练(2004年10月19日至2012年4月9日),在剩余30%的数据上进行测试(2012年4月12日至2015年7月24日)。
  • 通过均方根误差(RMSE)与平均绝对百分比误差(MAPE)指标,将模型性能与岭回归/套索回归及GARCH(1,1)基准进行比较。

实验结果

研究问题

  • RQ1谷歌国内搜索趋势能否提升标普500波动率预测的准确性?
  • RQ2LSTM模型在波动率预测中是否优于传统线性与自回归模型(如GARCH)?
  • RQ3在本情境下,最大化预测性能的最优观测与归一化方案是什么?
  • RQ4当引入外部情绪数据时,LSTM模型在多大程度上避免了过拟合?

主要发现

  • LSTM模型在测试集上的平均绝对百分比误差(MAPE)为24.2%,显著优于岭回归/套索回归与GARCH基准模型,后者的MAPE至少为34.9%。
  • 通过最大化互信息确定的最优输入方案,通过对齐搜索趋势与波动率变化的时序动态,提升了模型性能。
  • 模型表现出极小的过拟合现象,训练集MAPE(20%)与测试集MAPE(24.2%)接近,表明泛化能力稳定。
  • 将输入维度降低至六个关键特征(波动率、收益率及“投资”、“bnkrpt”等趋势)后,MAPE上升至27.2%,证实完整特征输入的价值。
  • 预测误差的均值为零,且无显著自相关,但通过科尔莫戈罗夫-斯米尔诺夫正态性检验(p ≪ 1%),表明误差结构非正态分布。
  • 无论输入配置如何,模型性能均具鲁棒性,且LSTM始终优于线性与自回归基准模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。