Skip to main content
QUICK REVIEW

[论文解读] Deriving information from missing data: implications for mood prediction

Yue Wu, Terry Lyons|arXiv (Cornell University)|Jun 26, 2020
Mental Health Research Topics参考文献 18被引用 28
一句话总结

本文提出一种基于签名的机器学习方法,将缺失响应纳入纵向情绪数据的分析中,以提升双相情感障碍(BD)、边缘型人格障碍(BPD)和健康对照组(HC)的诊断与情绪预测效果。通过在粗糙路径框架中将缺失响应视为信息性事件,该方法实现了66%的诊断准确率,显著优于排除缺失数据的朴素模型,尤其在BPD分类和情绪状态预测方面表现更优。

ABSTRACT

The availability of mobile technologies has enabled the efficient collection prospective longitudinal, ecologically valid self-reported mood data from psychiatric patients. These data streams have potential for improving the efficiency and accuracy of psychiatric diagnosis as well predicting future mood states enabling earlier intervention. However, missing responses are common in such datasets and there is little consensus as to how this should be dealt with in practice. A signature-based method was used to capture different elements of self-reported mood alongside missing data to both classify diagnostic group and predict future mood in patients with bipolar disorder, borderline personality disorder and healthy controls. The missing-response-incorporated signature-based method achieves roughly 66\% correct diagnosis, with f1 scores for three different clinic groups 59\% (bipolar disorder), 75\% (healthy control) and 61\% (borderline personality disorder) respectively. This was significantly more efficient than the naive model which excluded missing data. Accuracies of predicting subsequent mood states and scores were also improved by inclusion of missing responses. The signature method provided an effective approach to the analysis of prospectively collected mood data where missing data was common and should be considered as an approach in other similar datasets.

研究动机与目标

  • 解决精神疾病患者前瞻性自我报告情绪数据中非随机缺失数据的挑战。
  • 评估将缺失响应作为信息性特征纳入分析是否能提升诊断分类与未来情绪状态预测的性能。
  • 开发并测试一种基于签名的方法,以捕捉响应与缺失数据之间的时序动态与交互关系。
  • 将包含缺失响应的模型性能与排除缺失数据的标准方法进行对比。
  • 评估该方法在利用ASRM和QIDS自我报告数据区分BD、BPD与HC方面的实用性。

提出的方法

  • 将粗糙路径理论中的签名方法应用于二维合并的情绪数据(ASRM与QIDS评分),其中缺失响应以-1编码。
  • 将缺失响应视为计数过程中的事件,保留时间顺序,使签名能够捕捉到响应与缺失并存的模式。
  • 采用二阶签名特征提取方法,以编码情绪与缺失状态随时间的动态变化。
  • 使用随机森林分类器与回归器作为基础模型,用于分类、状态预测与评分预测任务。
  • 将该方法与排除所有缺失数据点的朴素基线模型进行对比。
  • 在AMoSS研究的126名参与者中验证该方法,其情绪评估每周进行,持续至少20周。

实验结果

研究问题

  • RQ1能否将纵向情绪数据中的缺失响应作为信息性特征加以利用,而非直接丢弃?
  • RQ2在基于签名的特征中纳入缺失数据是否能提升BD、BPD与HC的诊断分类准确率?
  • RQ3包含与不包含缺失数据的模型在情绪状态与评分预测方面的性能差异如何?
  • RQ4该签名方法能否有效捕捉BPD与BD患者在情绪不稳定模式上的差异?
  • RQ5在非随机缺失的情况下,该签名模型是否比标准插补或排除法更具鲁棒性?

主要发现

  • 包含缺失响应的签名模型实现了66%的整体诊断准确率,显著优于排除缺失数据的朴素模型。
  • F1分数分别为BD 59%、HC 75%、BPD 61%;BPD分类的F1分数从朴素模型中的低于0.5提升至新方法中的高于0.6。
  • 将BPD患者误判为BD患者的比例从约40%降至三分之一以下,表明新方法更准确地捕捉了BPD特有的情绪不稳定性特征。
  • 在包含缺失响应的情况下,所有群体的情绪状态预测准确率均有所提升,尤其在QIDS与ASRM状态预测中表现更优。
  • 未来ASRM与QIDS评分的预测性能也因签名特征中纳入缺失数据而得到提升。
  • 该方法在处理非随机缺失数据方面表现出鲁棒性,表明缺失数据可能携带关于潜在情绪动态的有意义信息。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。