[论文解读] Text-based depression detection on sparse data
本文提出了一种结合预训练句子级嵌入的多任务BGRU模型,用于在稀疏临床数据上进行基于文本的抑郁障碍检测。通过联合预测抑郁存在与否及严重程度,该模型在DAIC-WOZ开发集上取得了0.84的宏F1分数和3.48的平均绝对误差(MAE),表明句子级嵌入与多任务学习在低资源临床文本上能显著提升性能。
Previous text-based depression detection is commonly based on large user-generated data. Sparse scenarios like clinical conversations are less investigated. This work proposes a text-based multi-task BGRU network with pretrained word embeddings to model patients' responses during clinical interviews. Our main approach uses a novel multi-task loss function, aiming at modeling both depression severity and binary health state. We independently investigate word- and sentence-level word-embeddings as well as the use of large-data pretraining for depression detection. To strengthen our findings, we report mean-averaged results for a multitude of independent runs on sparse data. First, we show that pretraining is helpful for word-level text-based depression detection. Second, our results demonstrate that sentence-level word-embeddings should be mostly preferred over word-level ones. While the choice of pooling function is less crucial, mean and attention pooling should be preferred over last-timestep pooling. Our method outputs depression presence results as well as predicted severity score, culminating a macro F1 score of 0.84 and MAE of 3.48 on the DAIC-WOZ development set.
研究动机与目标
- 在用户生成数据稀缺的低资源临床环境中,提升基于文本的抑郁障碍检测性能。
- 探究在大规模无关语料上进行预训练是否能提升在稀疏临床文本上的性能。
- 比较词级嵌入与句子级嵌入在抑郁障碍检测中的有效性。
- 评估不同池化函数与各类嵌入类型结合时的表现。
- 开发一种稳健的多任务学习框架,联合预测二元抑郁状态与PHQ-8严重度评分。
提出的方法
- 采用结合注意力机制的多任务BGRU架构,联合预测二元抑郁状态与PHQ-8严重度评分。
- 利用预训练的词嵌入与句子嵌入(Word2Vec、fastText、ELMo、BERT)以在数据有限的情况下提升表征学习能力。
- 采用五折交叉验证并重复运行,以确保性能估计的稳定与可靠。
- 采用一种新颖的多任务损失函数,结合二元交叉熵与平均绝对误差,实现联合优化。
- 在序列表征上评估四种池化策略——平均池化、最大池化、时间池化与注意力池化,以确定最优聚合方式。
- 实施数据平衡技术,以缓解类别不平衡问题,并减少在小样本数据集上的过拟合。
实验结果
研究问题
- RQ1在大规模无关语料上进行预训练是否能提升在稀疏临床文本上的抑郁障碍检测性能?
- RQ2句子级嵌入是否比词级嵌入在临床抑郁障碍检测中更具有效性?
- RQ3当与不同嵌入类型结合时,哪种池化函数(平均、最大、时间、注意力)能取得最佳性能?
- RQ4能否通过联合预测抑郁存在与否与严重程度的多任务学习框架,在低资源数据上超越单任务基线模型?
- RQ5在低数据环境下,上下文无关嵌入(如Word2Vec)与上下文相关嵌入(如BERT、ELMo)的表现如何比较?
主要发现
- 在大规模语料上进行预训练能显著提升在稀疏数据上的词级文本抑郁障碍检测性能。
- 句子级嵌入始终优于词级嵌入,最佳宏F1分数达到0.84。
- 平均池化与注意力池化优于最后时间步池化,而最大池化表现相当。
- 所提出的多任务模型在DAIC-WOZ开发集上取得了0.84的宏F1分数与3.48的MAE,优于先前方法。
- ELMo与BERT-based模型的MAE最低(分别为3.78与3.48),其中BERT在回归任务中表现最佳。
- Doc2Vec表现显著较差,原因在于数据有限且缺乏上下文表征能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。