[论文解读] Improving Decision Analytics with Deep Learning: The Case of Financial Disclosures
本文提出使用深度学习,特别是递归自编码器,以提升从财务披露中预测股价走势的性能。通过自动学习分层文本表征,该模型相比传统机器学习基准模型实现了5.66%的准确率提升,证明了深度学习在捕捉金融文本中非线性模式以支持决策分析方面的优越性。
Decision analytics commonly focuses on the text mining of financial news sources in order to provide managerial decision support and to predict stock market movements. Existing predictive frameworks almost exclusively apply traditional machine learning methods, whereas recent research indicates that traditional machine learning methods are not sufficiently capable of extracting suitable features and capturing the non-linear nature of complex tasks. As a remedy, novel deep learning models aim to overcome this issue by extending traditional neural network models with additional hidden layers. Indeed, deep learning has been shown to outperform traditional methods in terms of predictive performance. In this paper, we adapt the novel deep learning technique to financial decision support. In this instance, we aim to predict the direction of stock movements following financial disclosures. As a result, we show how deep learning can outperform the accuracy of random forests as a benchmark for machine learning by 5.66%.
研究动机与目标
- 评估深度学习是否能在预测财务披露后的股价走势方面优于传统机器学习方法。
- 探究递归自编码器在无需人工特征工程的情况下,从原始金融文本中端到端学习特征的潜力。
- 评估深度学习模型相较于经典分类器在金融决策分析中的计算效率与预测性能。
- 提供实证证据,证明深度学习可提升高影响力金融文本挖掘任务中的预测准确率。
- 探讨预测准确率提升对自动化交易与企业沟通策略的管理启示。
提出的方法
- 本研究采用递归自编码器,一种深度学习架构,通过递归编码短语和句子来学习文本的分层向量表征。
- 该模型通过将财务披露文本分解为子结构,并利用反向传播与梯度下降学习分布式表征来处理文本。
- 通过调整嵌入维度(40)和迭代次数(70)等超参数,以优化测试集性能。
- 该方法通过直接从原始文本输入学习有意义的表征,避免了人工特征工程。
- 使用标准指标(准确率、精确率、召回率和F1值)在保留的测试集上评估模型性能。
- 与随机森林等传统分类器进行对比评估,采用一致的训练与测试协议。
实验结果
研究问题
- RQ1深度学习模型是否能在预测财务披露后的股价走势方向方面优于传统机器学习方法?
- RQ2递归自编码器在多大程度上减少了金融文本分析中对人工特征工程的需求?
- RQ3在金融决策支持背景下,深度学习的预测准确率与经典基准相比如何?
- RQ4与传统分类器相比,深度学习模型在该领域中的计算成本与可扩展性如何?
- RQ5预测准确率提升对投资者情绪分析与企业披露策略的管理启示是什么?
主要发现
- 递归自编码器在测试集上达到0.56的准确率,相比基准随机森林模型(0.53准确率)实现了5.66%的相对提升。
- F1值从基准模型的0.52提升至深度学习模型的0.56,相对提升7.69%。
- 模型在召回率上表现出更优性能,相对提升9.80%,表明其对正向股价走势信号的检测能力更强。
- 递归自编码器的计算时间显著更短(约23分钟),相比随机森林(约200分钟),显示出更高的效率。
- 深度学习模型无需人工特征工程,可自动从原始文本中学习分层表征。
- 结果证实,深度学习能够有效捕捉金融文本中的非线性模式,在准确率与F1值上均优于经典模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。