[論文レビュー] SMHD: A Large-Scale Resource for Exploring Online Language Usage for Multiple Mental Health Conditions
Reddit からの Self-reported Mental Health Diagnoses (SMHD) データセットを紹介し、9つの精神健康状態と一致した対照群の言語使用を大規模に分析可能にし、このリソース上で分類手法を評価します。
Mental health is a significant and growing public health concern. As language usage can be leveraged to obtain crucial insights into mental health conditions, there is a need for large-scale, labeled, mental health-related datasets of users who have been diagnosed with one or more of such conditions. In this paper, we investigate the creation of high-precision patterns to identify self-reported diagnoses of nine different mental health conditions, and obtain high-quality labeled data without the need for manual labelling. We introduce the SMHD (Self-reported Mental Health Diagnoses) dataset and make it available. SMHD is a novel large dataset of social media posts from users with one or multiple mental health conditions along with matched control users. We examine distinctions in users' language, as measured by linguistic and psychological variables. We further explore text classification methods to identify individuals with mental conditions through their language.
研究の動機と目的
- 9つの状態にわたる自己申告型の精神健康診断を識別する高精度パターンを開発する。
- 診断済みユーザーとマッチした対照を含む、大規模でラベル付きの Reddit データセット(SMHD)を構築する。
- LIWCや他の指標を用いて、診断グループと対照群の言語学的・心理言語学的差異を分析する。
- Reddit の言語から精神健康状態を検出するテキスト分類手法を探る。
- 精神健康言語学研究の再現性を支えるデータと方法論を提供する。
提案手法
- 定義された近接距離内で診断語と状態語を比較する高精度な診断パターンを用いて診断済みユーザーを識別する。
- MedSyn と Behavioral mappings を用いて状態語リストを同義語や口語表現で拡張する。
- 分類特徴を構築する際にメンタルヘルス関連コンテンツを投稿から除外し、非メンタルヘルス文を用いた分類を保証する。
- 対照群は、重複するサブレディットが多く、投稿活動が類似しているが、メンタルヘルス関連投稿を含まないユーザーを選択する。
- より多くの診断済みユーザーが必要な研究のため、緩和された対照を含む二次データセット(smhd-rc)を提供する。
- BoW tf-idf特徴とマルチラベル設定で、ベースラインおよび高度な分類器(Logistic Regression、XGBoost、Linear SVM、Supervised FastText、CNN)を評価する。
実験結果
リサーチクエスチョン
- RQ19つの状態にわたって、精神健康状態と診断された Reddit ユーザーとマッチした対照の間で言語パターンはどのように異なるか?
- RQ2高精度のパターンベースのラベリングは、Reddit での精神健康分析に対してスケーラブルで高品質なラベル付きデータを生み出せるか?
- RQ3どの言語特徴と分類器が、投稿から精神健康診断を受けたユーザーを最も効果的に識別できるか?
- RQ4SMHD データセット内の複数の精神健康状態の共起パターンは何か?
主な発見
- The SMHD データセットは、9つの状態にわたって診断済みユーザー 20,406 名とマッチした対照 335,952 名を含む。
- 診断済みユーザーは、LIWC ベースの言語カテゴリにおいて対照と有意差を示し、効果量は小から中程度(d は約0.5程度まで)。
- Certain patterns such as higher authentic language and increased first-person pronoun usage are prevalent among many mental health groups.
- 対照ユーザーは権威性の指標が高く、余暇・金銭関連の言及が多い傾向があり、複数の認知・社会プロセスカテゴリがグループを区別する。
- うつ病は不安障害や他の状態と顕著に共起しており、診断済みユーザーの一部で(例:うつ病を持つ人の約30%が不安も示す)。
- データセットは二値分類とマルチラベル多クラス分類の両方の実験をサポートし、複数のモデルが診断済みユーザーの検出と状態予測で異なる性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。