Skip to main content
QUICK REVIEW

[论文解读] Identifying Depression on Twitter

Moin Nadeem|arXiv (Cornell University)|Jul 25, 2016
Mental Health via Writing参考文献 21被引用 99
一句话总结

本文构建了一种文本分类方法,利用来自 Twitter 的众包标签来预测抑郁症(MDD)风险,在250万条推文语料库上达到81%的准确率和0.86的精确度。它将抑郁检测视为文本分类问题,并在长达一年的历史推文上使用词袋模型结合统计分类器。

ABSTRACT

Social media has recently emerged as a premier method to disseminate information online. Through these online networks, tens of millions of individuals communicate their thoughts, personal experiences, and social ideals. We therefore explore the potential of social media to predict, even prior to onset, Major Depressive Disorder (MDD) in online personas. We employ a crowdsourced method to compile a list of Twitter users who profess to being diagnosed with depression. Using up to a year of prior social media postings, we utilize a Bag of Words approach to quantify each tweet. Lastly, we leverage several statistical classifiers to provide estimates to the risk of depression. Our work posits a new methodology for constructing our classifier by treating social as a text-classification problem, rather than a behavioral one on social media platforms. By using a corpus of 2.5M tweets, we achieved an 81% accuracy rate in classification, with a precision score of .86. We believe that this method may be helpful in developing tools that estimate the risk of an individual being depressed, can be employed by physicians, concerned individuals, and healthcare agencies to aid in diagnosis, even possibly enabling those suffering from depression to be more proactive about recovering from their mental health.

研究动机与目标

  • 推动使用社交媒体作为在发病前预测抑郁症(MDD)数据来源。
  • 提出一种文本分类框架,将抑郁检测视为语言问题,而非社交平台上的行为问题。
  • 从自报抑郁的 Twitter 用户构建带标签的数据集。
  • 在跨越分析前最多一年的大规模推文语料库上评估分类器。

提出的方法

  • 对自称被诊断出抑郁的 Twitter 用户进行众包标注。
  • 为每个用户组装长达一年的历史推文语料。
  • 用词袋方法对推文进行表示以量化文本。
  • 应用统计分类器来估计抑郁风险。
  • 将问题视为文本分类,而不是仅仅对社媒行为进行分析。

实验结果

研究问题

  • RQ1是否能够使用词袋表示从 Twitter 文本中准确检测抑郁风险?
  • RQ2在一个大规模、带标签的 Twitter 语料库上,统计分类器的预测准确性和精确度是多少?
  • RQ3相较于较短历史,利用长达一年的前期推文是否能提高抑郁风险估计?
  • RQ4该方法是否能够为临床医生、照顾者或健康机构在评估抑郁风险方面提供工具?

主要发现

  • 在所收集的 Twitter 语料库上实现了81%的抑郁分类准确率。
  • 在识别抑郁个体方面实现了0.86的精确度。
  • 使用了2.5百万条推文的语料库,并对每个用户提供一年前的历史帖子。
  • 表明将社媒数据视为文本分类问题对抑郁检测是有效的。
  • 该方法依赖于词袋特征和统计分类器来估计抑郁风险。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。