[論文レビュー] MentalBERT: Publicly Available Pretrained Language Models for Mental Healthcare
この論文は MentalBERT と MentalRoBERTa を精神保健 Reddit データでトレーニングし公開し、その後複数の精神保健検出タスクで評価し、ドメイン特化の事前学習が性能を向上させることを示す。
Mental health is a critical issue in modern society, and mental disorders could sometimes turn to suicidal ideation without adequate treatment. Early detection of mental disorders and suicidal ideation from social content provides a potential way for effective social intervention. Recent advances in pretrained contextualized language representations have promoted the development of several domain-specific pretrained models and facilitated several downstream applications. However, there are no existing pretrained language models for mental healthcare. This paper trains and release two pretrained masked language models, i.e., MentalBERT and MentalRoBERTa, to benefit machine learning for the mental healthcare research community. Besides, we evaluate our trained domain-specific models and several variants of pretrained language models on several mental disorder detection benchmarks and demonstrate that language representations pretrained in the target domain improve the performance of mental health detection tasks.
研究の動機と目的
- 精神医療におけるドメイン特化型言語モデルの必要性を動機づける。
- 研究コミュニティに公開可能な事前学習済みモデルを提供する。
- 精神保健データでの継続的な事前学習が下流の分類性能を改善することを示す。
- プラットフォームを横断する多様な精神保健検出ベンチマークでモデルを評価する。
提案手法
- 一般ドメインのチェックポイントから開始して、精神保健 Reddit コーパスでの継続的な事前学習を通じて BERT と RoBERTa を適応させる。
- MentalRoBERTa には動的マスキングを用いたマスクド言語モデル、MentalBERT にはベースの BERT を使用する。
- 事前学習済みモデルを下流タスクにファインチューニングし、[CLS] 埋め込みと MLP分類器を用いる。
- 抑うつ、不安、ストレス、自殺念慮を含む複数の精神保健データセットでモデルを評価する。
実験結果
リサーチクエスチョン
- RQ1精神保健検出タスクにおいて、精神保健用のドメイン特化型事前学習モデルは一般ドメインの事前学習モデルより優れているか?
- RQ2他のドメイン(例:生物医療/臨床)からのドメイン適応型事前学習より、精神保健データでの継続的な事前学習は精神保健タスクにおいて効果的か?
- RQ3様々な精神障害タスクに対して、Reddit、Twitter、SMS風データなど多様なデータセットとプラットフォームで MentalBERT と MentalRoBERTa はどのように性能を発揮するか?
主な発見
- MentalRoBERTa は抑うつデータセット(eRisk T1 および CLPsych)でしばしば最良の結果を出し、他のいくつかの障害データセット(T-SID、SWMH、SAD、Dreaddit)でも高い成績を示す。
- MentalBERT は競争力があり、Depression_Reddit データセットで Best F1、いくつかの設定で UMD データセットの F1 を最高値にする。
- ドメイン特化型の精神保健データでの事前学習は、一般ドメインモデルより良い性能を示すことが多く、場合によっては生物医療/臨床ドメインの事前学習を上回る。
- 精神保健ドメインでの継続的な事前学習は、複数のタスクで下流の分類性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。