[论文解读] Feature Engineering for Mid-Price Prediction Forecasting with Deep Learning
本文提出了一套从限价订单簿(LOB)数据中提取的新型手工经济计量特征,以提升中间价格变动的预测性能。通过多目标在线学习框架,联合预测价格方向与价格变动前的订单簿事件数,采用LSTM、CNN和MLP等深度学习模型,在流动性高和低的股票中均表现出色。
Mid-price movement prediction based on limit order book (LOB) data is a challenging task due to the complexity and dynamics of the LOB. So far, there have been very limited attempts for extracting relevant features based on LOB data. In this paper, we address this problem by designing a new set of handcrafted features and performing an extensive experimental evaluation on both liquid and illiquid stocks. More specifically, we implement a new set of econometrical features that capture statistical properties of the underlying securities for the task of mid-price prediction. Moreover, we develop a new experimental protocol for online learning that treats the task as a multi-objective optimization problem and predicts i) the direction of the next price movement and ii) the number of order book events that occur until the change takes place. In order to predict the mid-price movement, the features are fed into nine different deep learning models based on multi-layer perceptrons (MLP), convolutional neural networks (CNN) and long short-term memory (LSTM) neural networks. The performance of the proposed method is then evaluated on liquid and illiquid stocks, which are based on TotalView-ITCH US and Nordic stocks, respectively. For some stocks, results suggest that the correct choice of a feature set and a model can lead to the successful prediction of how long it takes to have a stock price movement.
研究动机与目标
- 解决利用限价订单簿(LOB)数据进行中间价格预测时缺乏有效特征工程的问题。
- 设计一套全面的经济计量特征,以捕捉底层证券的统计特性。
- 开发一种多目标在线学习协议,同时预测价格变动的方向以及发生变动前的订单簿事件数。
- 在包括流动性高和低的股票在内的多样化市场条件下,评估所提出的特征集和模型架构。
- 证明通过合适的特征与深度学习模型组合,可成功预测价格变动的时间点。
提出的方法
- 基于LOB数据的统计特性(如买卖价差、深度和订单流不平衡)设计一套新的手工经济计量特征。
- 实施一种多目标学习框架,将中间价格预测视为联合预测任务:预测下一次价格变动的方向以及发生变动前的事件数。
- 将工程化后的特征输入九种深度学习模型,包括多层感知机(MLP)、卷积神经网络(CNN)和长短期记忆(LSTM)网络。
- 使用在线学习协议进行模型训练与评估,以模拟实时预测场景。
- 使用TotalView-ITCH美国数据集测试流动性高的股票,使用北欧交易所数据集测试流动性低的股票,以确保在多样化市场条件下的测试覆盖。
- 采用针对多目标预测设计的模型评估指标,重点关注价格变动方向和时间的预测准确性。
实验结果
研究问题
- RQ1从LOB数据中提取的手工经济计量特征是否能有效提升中间价格变动预测性能?
- RQ2一种联合预测价格方向与变动时间的多目标学习方法是否优于单任务模型?
- RQ3当使用所提出的特征集时,不同深度学习架构(MLP、CNN、LSTM)的表现如何?
- RQ4所提出的特征与模型在流动性高和低的股票之间具有多大程度的泛化能力?
- RQ5是否能通过所提出的特征工程与深度学习模型结合的流程可靠地预测价格变动的时间?
主要发现
- 与使用原始LOB数据的基线方法相比,所提出的特征集显著提升了中间价格预测性能。
- 在某些股票中,最优特征与深度学习模型的组合成功预测了价格变动前的订单簿事件数。
- 基于LSTM的模型在捕捉LOB数据中的时间依赖性方面表现优异,尤其在预测变动时间方面。
- 与单任务基线相比,多目标学习框架在方向与时间预测的准确性上均有提升。
- 该方法在流动性高和低的股票中均表现出鲁棒性,表明其在不同市场条件下的泛化能力。
- 结果表明,即使在使用先进的深度学习模型时,特征工程仍是实现高预测性能的关键因素。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。