[论文解读] Quantifying Mental Health from Social Media with Neural User Embeddings
本文提出了一种神经用户嵌入模型,通过学习Twitter帖子历史中的表示,捕捉与心理健康相关的特征,证明这些嵌入能够捕捉同质性模式,并提升对抑郁和创伤后应激障碍(PTSD)的预测能力。该方法通过子空间学习适应嵌入,显著提升了在少量标注数据下的心理健康状况判别能力,优于基线模型。
Mental illnesses adversely affect a significant proportion of the population worldwide. However, the methods traditionally used for estimating and characterizing the prevalence of mental health conditions are time-consuming and expensive. Consequently, best-available estimates concerning the prevalence of mental health conditions are often years out of date. Automated approaches to supplement these survey methods with broad, aggregated information derived from social media content provides a potential means for near real-time estimates at scale. These may, in turn, provide grist for supporting, evaluating and iteratively improving upon public health programs and interventions. We propose a novel model for automated mental health status quantification that incorporates user embeddings. This builds upon recent work exploring representation learning methods that induce embeddings by leveraging social media post histories. Such embeddings capture latent characteristics of individuals (e.g., political leanings) and encode a soft notion of homophily. In this paper, we investigate whether user embeddings learned from twitter post histories encode information that correlates with mental health statuses. To this end, we estimated user embeddings for a set of users known to be affected by depression and post-traumatic stress disorder (PTSD), and for a set of demographically matched `control' users. We then evaluated these embeddings with respect to: (i) their ability to capture homophilic relations with respect to mental health status; and (ii) the performance of downstream mental health prediction models based on these features. Our experimental results demonstrate that the user embeddings capture similarities between users with respect to mental conditions, and are predictive of mental health.
研究动机与目标
- 探究从社交媒体帖子中学习到的用户嵌入是否编码了与心理健康状况相关的信息。
- 评估用户嵌入在捕捉具有相似心理健康状况的用户之间同质性关系方面的能力。
- 评估这些嵌入是否相比传统文本特征,能够增强下游心理健康预测模型的性能。
- 探索使用少量任务特定标注数据对通用用户嵌入进行适应的有效性。
提出的方法
- 使用跳字模型(User2Vec)和段落向量变体(PV-dbow、PV-dm)在用户的历史Twitter帖子上训练用户嵌入。
- 使用在大规模语料上预训练的跳字模型初始化词嵌入,以提升表示质量。
- 提出一种新型神经线性子空间嵌入(NLSE)方法,通过将通用用户嵌入投影到任务特定子空间中,实现对心理健康预测的适应。
- NLSE模型使用可学习的投影矩阵进行线性变换,基于标注的心理健康状态对嵌入进行优化。
- 基线模型包括词袋(BOW)、TF-IDF,以及将用户嵌入与文本特征结合的混合模型(u2v+bow、u2v+boe)。
- 模型训练采用10折交叉验证,结合早停法和正则化与超参数的网格搜索。
实验结果
研究问题
- RQ1从社交媒体帖子历史中学习到的用户嵌入在多大程度上能捕捉与心理健康状况相关的同质性关系?
- RQ2用户嵌入能否作为有效特征,用于区分患有抑郁或PTSD的用户与人口学特征匹配的对照组?
- RQ3与通用用户嵌入相比,对用户嵌入进行任务特定适应在心理健康预测中的性能提升程度如何?
- RQ4神经用户嵌入是否在分类心理健康状况方面优于传统文本基线模型(如BOW)?
主要发现
- BOW基线模型表现优于大多数其他模型,表明在社交媒体数据中,对心理健康状况的显式提及是强有力的预测因子。
- User2Vec和PV-dm性能相当,而PV-dbow表现显著更差,表明在预测帖子中所有词语时能获得更优的表示。
- NLSE模型通过子空间投影适应通用用户嵌入,优于所有基线模型,尤其在识别少数类(抑郁和PTSD)方面表现突出。
- NLSE相比基线模型在二分类F1分数上的提升在抑郁和PTSD上最为显著,表明其对临床相关病例的判别能力更强。
- 经适应的嵌入在区分对照组与心理健康状况异常用户方面表现更优,t-SNE可视化结果也显示聚类效果更佳。
- 结果证实,即使在无监督条件下,用户嵌入也能捕捉潜在的心理健康相关信号,且通过少量标注数据微调可显著提升下游任务性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。