[论文解读] SMHD: A Large-Scale Resource for Exploring Online Language Usage for Multiple Mental Health Conditions
介绍来自 Reddit 的 Self-reported Mental Health Diagnoses (SMHD) 数据集,使对九种心理健康状况及匹配对照的语言使用进行大规模分析成为可能,并评估该资源上的分类方法。
Mental health is a significant and growing public health concern. As language usage can be leveraged to obtain crucial insights into mental health conditions, there is a need for large-scale, labeled, mental health-related datasets of users who have been diagnosed with one or more of such conditions. In this paper, we investigate the creation of high-precision patterns to identify self-reported diagnoses of nine different mental health conditions, and obtain high-quality labeled data without the need for manual labelling. We introduce the SMHD (Self-reported Mental Health Diagnoses) dataset and make it available. SMHD is a novel large dataset of social media posts from users with one or multiple mental health conditions along with matched control users. We examine distinctions in users' language, as measured by linguistic and psychological variables. We further explore text classification methods to identify individuals with mental conditions through their language.
研究动机与目标
- 开发高精度模式以在九种诊断条件中识别自我报告的心理健康诊断。
- 构建一个大规模的、带标签的 Reddit 数据集(SMHD),包含有诊断的用户及匹配对照。
- 分析诊断组与对照之间的语言学和心理语言学差异。使用 LIWC 及其他指标。
- 探索基于 Reddit 上的语言来检测心理健康状况的文本分类方法。
- 提供数据与方法学以支持心理健康语言学研究的可重复性。
提出的方法
- 通过在定义的接近条件术语的范围内比较诊断关键词,利用高精度诊断模式来识别有诊断的用户。
- 使用 MedSyn 与行为映射扩展条件术语列表,包含同义词和日常用语。
- 在形成特征时从帖子中移除心理健康相关内容,以确保分类使用非心理健康文本。
- 对于对照组,选择在大量重叠的子版块和相似的发帖活动下的用户,且没有心理健康相关帖子。
- 提供一个二级数据集(smhd-rc),对照条件放宽,以便需要更多有诊断用户的研究。
- 在 BoW tf-idf 特征和多标签设置下评估基线与高级分类器(Logistic Regression、XGBoost、Linear SVM、Supervised FastText、CNN)。
实验结果
研究问题
- RQ1在九种条件下,Reddit 用户的语言模式与匹配对照之间有何差异?
- RQ2高精度、基于模式的标注是否能够为 Reddit 上的心理健康分析产生可扩展的高质量标注数据?
- RQ3哪些语言特征和分类器最有效地从其帖子中识别出有心理健康诊断的用户?
- RQ4在 SMHD 数据集中,多种心理健康状况的共现模式是什么?
主要发现
- SMHD 数据集包含九种条件下的 20,406 名有诊断的用户和 335,952 名匹配对照。
- 有诊断的用户在基于 LIWC 的语言类别上相对于对照组存在显著差异,效应量从小到中等(d 最高约为 ~0.5)。
- 某些模式如更高的真实语言使用和第一人称代词使用增加,在许多心理健康群体中普遍存在。
- 对照用户往往显示更高的权威性(clout)以及更多的休闲/金钱相关引用,多个认知和社会过程类别区分各组。
- 抑郁与焦虑及其他疾病在有诊断的用户中显著共现的一部分(例如,约 30% 的抑郁患者同时也表现出焦虑)。
- 该数据集支持二元与多标签多类别分类实验,多种模型在检测有诊断的用户和预测疾病方面取得不同的表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。