[论文解读] Demystifying the trend of the healthcare index: Is historical price a key driver?
论文表明,使用 OHLC 数据、波动性指标和新颖的 nowcasting 特征的特征丰富型 ML 模型能够预测次日健康指数开盘,在美国和印度市场的准确率超过 0.8、MCC 超过 0.6,并且 nowcasting 特征通过 Shapley 值在模型解释中占主导地位。
Healthcare sector indices consolidate the economic health of pharmaceutical, biotechnology, and healthcare service firms. The short-term movements in these indices are closely intertwined with capital allocation decisions affecting research and development investment, drug availability, and long-term health outcomes. This research investigates whether historical open-high-low-close (OHLC) index data contain sufficient information for predicting the directional movement of the opening index on the subsequent trading day. The problem is formulated as a supervised classification task involving a one-step-ahead rolling window. A diverse feature set is constructed, comprising original prices, volatility-based technical indicators, and a novel class of nowcasting features derived from mutual OHLC ratios. The framework is evaluated on data from healthcare indices in the U.S. and Indian markets over a five-year period spanning multiple economic phases, including the COVID-19 pandemic. The results demonstrate robust predictive performance, with accuracy exceeding 0.8 and Matthews correlation coefficients above 0.6. Notably, the proposed nowcasting features have emerged as a key determinant of the market movement. We have employed the Shapley-based explainability paradigm to further elucidate the contribution of the features: outcomes reveal the dominant role of the nowcasting features, followed by a more moderate contribution of original prices. This research offers a societal utility: the proposed features and model for short-term forecasting of healthcare indices can reduce information asymmetry and support a more stable and equitable health economy.
研究动机与目标
- 了解是否可以从历史 OHLC 数据预测短期健康指数的变动。
- 识别哪类特征(内在、基于波动性、nowcasting)最强地与次日开盘变动相关。
- 开发一个可解释的 ML 框架,提供对特征对预测贡献的透明度。
- 使用美印两国健康指数在不同经济阶段的多市场普适性进行评估。
提出的方法
- 构建一个标注数据集,将一日滚动分类任务设为次日开盘上涨/下跌的预测。
- 设计多样化特征集:内在 OHLC 特征、基于波动性的指标(Donchian 通道、布林带、Keltner 通道),以及基于互相 OHLC 比例的 nowcasting 特征。
- 通过连接内在、波动性和 nowcasting 特征来形成最终特征向量,作为模型输入。
- 在 2019–2024 年的美国和印度健康指数数据上进行多种分类器的训练,采用 80/20 的训练/测试拆分。
- 使用准确率和 Matthews 相关系数(MCC)评估性能。
- 应用 Shapley 值来量化特征贡献并解释模型决策。

实验结果
研究问题
- RQ1我们是否可以使用历史 OHLC 数据预测次日健康指数开盘的上涨或下跌?
- RQ2哪一类特征族(内在价格、波动性指标、nowcasting 比例)对预测性能的贡献最大?
- RQ3模型在两个不同市场(美国和印度)之间是否具有类似的预测准确性和解释模式的泛化性?
- RQ4基于 Shapley 的可解释性如何描述 nowcasting 特征相对于原始价格特征的重要性?
主要发现
- 在保留集上的预测准确率超过 0.8。
- 在保留集上的 Matthews 相关系数(MCC)超过 0.6。
- 基于互相 OHLC 比例推导的 nowcasting 特征成为市场变动的关键决定因素。
- 基于 Shapley 的解释显示 nowcasting 特征占主导作用,其次是原始价格的贡献较为温和。
- 该框架使用公开可获得的 OHLC 数据,并为健康指数变动的驱动因素提供了可解释的见解。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。