[论文解读] Graph-Based Learning for Stock Movement Prediction with Textual and Relational Data
本文提出多图循环网络(MGRN),一种基于图的深度学习框架,通过联合建模金融新闻中的文本情感与多种关系图(如行业、相关性、供应链)来提升股票走势预测。通过在循环架构中整合多源关系数据与时间动态,MGRN在第10百分位达到63.3%的准确率,并在准确率与交易模拟中均优于基线模型,证明了在金融预测中多关系建模的价值。
Predicting stock prices from textual information is a challenging task due to the uncertainty of the market and the difficulty understanding the natural language from a machine's perspective. Previous researches focus mostly on sentiment extraction based on single news. However, the stocks on the financial market can be highly correlated, one news regarding one stock can quickly impact the prices of other stocks. To take this effect into account, we propose a new stock movement prediction framework: Multi-Graph Recurrent Network for Stock Forecasting (MGRN). This architecture allows to combine the textual sentiment from financial news and multiple relational information extracted from other financial data. Through an accuracy test and a trading simulation on the stocks in the STOXX Europe 600 index, we demonstrate a better performance from our model than other benchmarks.
研究动机与目标
- 解决先前模型将股票视为独立个体、忽略相关或关联股票之间相互影响的问题。
- 弥补现有模型仅使用单一预定义关系图或忽略新闻时间动态的缺陷。
- 构建一个可扩展的框架,能够整合来自多样化金融数据源的无限数量关系图。
- 通过统一的基于图的架构,联合建模文本情感与关系信息,提升股票走势预测的准确性。
提出的方法
- 使用通用句子编码器将单条金融新闻嵌入为固定长度向量。
- 从不同数据源构建多个关系图:价格相关性(Corr)、GICS行业层级(Sector)与供应链关系(Supply)。
- 应用多头图卷积网络(GCN)在每个图中聚合节点(股票)间的关系信息,实现在连接股票之间的信息传递。
- 将图嵌入特征与双向长短期记忆网络(Bi-LSTM)结合,以建模新闻序列中的时间模式。
- 基于市场调整后的收益,使用二元交叉熵损失函数端到端训练MGRN模型,进行股票走势分类(上涨/下跌)。
- 采用加权融合策略整合多个图的输出,使模型能够同时从多样化的关系信号中学习。
实验结果
研究问题
- RQ1将多个关系图(如行业、相关性、供应链)联合整合,是否能提升股票走势预测性能,超越单一图或无图的基线?
- RQ2与将新闻视为独立事件相比,新闻序列中引入时间动态是否能提升预测性能?
- RQ3多源关系信息是否能降低由噪声或错误的单源图导致的预测误差?
- RQ4MGRN模型在分类准确率与真实世界交易模拟中,相较于现有最先进模型,其性能提升程度如何?
主要发现
- MGRN在第10百分位(q=10)达到63.3%的准确率,显著优于次佳模型(MAN-SF为59.9%)与基线RNN(58.0%)。
- 将全部三个图(Corr, Sector, Supply)结合使用,相比仅使用单一图,在q=10时提升5%准确率,在q=20时提升3.5%,证明了多图融合的优势。
- MGRN在所有基准模型中均表现最优,交易模拟中实现最高年化收益率(q=2时为74.0%)与夏普比率,甚至超越彭博情绪指数的表现。
- 对Tullow Oil(TLW LN)的案例研究显示,MGRN-Sector在正面内幕消息后正确预测-7.7%回报,而基线RNN失败,原因在于通过行业图将来自关联股票(如Glencore)的负面信号有效传播。
- 在GICS粒度等级为3(行业层级)的Sector图中表现最佳,q=10时准确率达58.0%,优于更粗或更细的粒度。
- 尽管单一图如供应链图若存在错误可能降低性能,但与其他图结合可有效抑制误差传播,证明了多图学习的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。