Skip to main content
QUICK REVIEW

[論文レビュー] Quantifying Mental Health from Social Media with Neural User Embeddings

Silvio Amir, Glen Coppersmith|arXiv (Cornell University)|Apr 30, 2017
Mental Health via Writing参考文献 27被引用数 24
ひとこと要約

本稿では、Twitter投稿履歴から精神的健康に関連する表現を学習するニューラルユーザーエンベッディングモデルを提案し、これらのエンベッディングが同質的パターンを捉え、うつ病およびPTSDの予測を向上させることを示している。本手法は、部分空間学習を用いてエンベッディングを適応させることで、最小限のラベル付きデータで精神的健康状態の識別を著しく向上させ、ベースラインを上回る性能を発揮する。

ABSTRACT

Mental illnesses adversely affect a significant proportion of the population worldwide. However, the methods traditionally used for estimating and characterizing the prevalence of mental health conditions are time-consuming and expensive. Consequently, best-available estimates concerning the prevalence of mental health conditions are often years out of date. Automated approaches to supplement these survey methods with broad, aggregated information derived from social media content provides a potential means for near real-time estimates at scale. These may, in turn, provide grist for supporting, evaluating and iteratively improving upon public health programs and interventions. We propose a novel model for automated mental health status quantification that incorporates user embeddings. This builds upon recent work exploring representation learning methods that induce embeddings by leveraging social media post histories. Such embeddings capture latent characteristics of individuals (e.g., political leanings) and encode a soft notion of homophily. In this paper, we investigate whether user embeddings learned from twitter post histories encode information that correlates with mental health statuses. To this end, we estimated user embeddings for a set of users known to be affected by depression and post-traumatic stress disorder (PTSD), and for a set of demographically matched `control' users. We then evaluated these embeddings with respect to: (i) their ability to capture homophilic relations with respect to mental health status; and (ii) the performance of downstream mental health prediction models based on these features. Our experimental results demonstrate that the user embeddings capture similarities between users with respect to mental conditions, and are predictive of mental health.

研究の動機と目的

  • ソーシャルメディア投稿から得られるユーザーエンベッディングが、精神的健康状態に関連する情報を符号化しているかどうかを調査すること。
  • 類似した精神的健康状態を有するユーザー間の同質的関係を、ユーザーエンベッディングがどの程度捉えられるかを評価すること。
  • 従来のテキストベースの特徴量と比較して、これらのエンベッディングが下流の精神的健康予測モデルの性能を向上させられるかどうかを評価すること。
  • 少量のタスク固有のラベル付きデータを用いて、汎用的ユーザーエンベッディングをどのように適応させるかの有効性を検討すること。

提案手法

  • ユーザーエンベッディングは、ユーザーの歴史的Twitter投稿を対象に学習されたスキップグラムモデル(User2Vec)およびパラグラフベクトルの変種(PV-dbow、PV-dm)を用いて学習される。
  • 単語エンベッディングは、大規模コーパス上で事前学習されたスキップグラムモデルを用いて初期化され、表現品質の向上が図られる。
  • 一般ユーザーエンベッディングを精神的健康予測タスクに適応させるために、新しいニューラル線形部分空間エンベッディング(NLSE)手法が提案される。この手法は、エンベッディングをタスク固有の部分空間に投影することで実現する。
  • NLSEモデルは、ラベル付きの精神的健康状態に基づいて、学習された投影行列を用いた線形変換によりエンベッディングを精緻化する。
  • ベースラインモデルには、bag-of-words(BOW)、TF-IDF、およびユーザーエンベッディングとテキスト特徴量を組み合わせたハイブリッドモデル(u2v+bow、u2v+boe)が含まれる。
  • モデル学習には10分割交差検証を用い、正則化およびハイパーパramータのグリッドサーチと早期停止を実施する。

実験結果

リサーチクエスチョン

  • RQ1ソーシャルメディア投稿履歴から学習されたユーザーエンベッディングは、精神的健康状態に関して、どの程度同質的関係を捉えられるか?
  • RQ2ユーザーエンベッディングは、抑うつ状態またはPTSDを有するユーザーと、人口統計学的にマッチした対照群を区別する有効な特徴量として機能できるか?
  • RQ3タスク固有の適応を施したユーザーエンベッディングは、汎用的エンベッディングと比較して、精神的健康予測の性能をどの程度向上させるか?
  • RQ4ニューラルユーザーエンベッディングは、BOWのような従来のテキストベースのベースラインを上回る性能を示せるか?

主な発見

  • BOWベースラインが他の多くのモデルを上回ったことから、ソーシャルメディアデータにおいて、精神的健康状態の明示的記述が強力な予測要因であることが示された。
  • User2VecとPV-dmは同等の性能を示したが、PV-dbowは著しく劣った。これは、投稿内のすべての単語を予測することでより優れた表現が得られることを示唆している。
  • 一般ユーザーエンベッディングを部分空間への投影によって適応させるNLSEモデルは、すべてのベースラインを上回り、とりわけ少数派クラス(抑うつ状態およびPTSD)の検出において顕著な優位性を示した。
  • NLSEがベースラインに対して示した二値F1スコアの向上は、抑うつ状態およびPTSDにおいて最も顕著であり、臨床的に重要な症例の識別能力が向上していることを示している。
  • 適応済みエンベッディングは、t-SNE可視化におけるクラスタリングの向上により、対照群と精神的健康状態を有するユーザーをより明確に区別できる能力を示した。
  • 結果から、無教師学習によるユーザーエンベッディングでさえも、潜在的な精神的健康関連信号を捉えられ、少量のラベル付きデータによる微調整が下流タスクの性能を著しく向上させることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。