Skip to main content
QUICK REVIEW

[논문 리뷰] MentalBERT: Publicly Available Pretrained Language Models for Mental Healthcare

Shaoxiong Ji, Tianlin Zhang|arXiv (Cornell University)|2021. 10. 29.
Mental Health via Writing참고 문헌 38인용 수 142
한 줄 요약

이 연구는 정신 건강 관련 Reddit 데이터에서 MentalBERT와 MentalRoBERTa를 학습해 공개한 뒤, 이를 다수의 정신 건강 탐지 과제에서 평가하여 도메인 특화 사전학습이 성능을 향상시킨다는 것을 보인다.

ABSTRACT

Mental health is a critical issue in modern society, and mental disorders could sometimes turn to suicidal ideation without adequate treatment. Early detection of mental disorders and suicidal ideation from social content provides a potential way for effective social intervention. Recent advances in pretrained contextualized language representations have promoted the development of several domain-specific pretrained models and facilitated several downstream applications. However, there are no existing pretrained language models for mental healthcare. This paper trains and release two pretrained masked language models, i.e., MentalBERT and MentalRoBERTa, to benefit machine learning for the mental healthcare research community. Besides, we evaluate our trained domain-specific models and several variants of pretrained language models on several mental disorder detection benchmarks and demonstrate that language representations pretrained in the target domain improve the performance of mental health detection tasks.

연구 동기 및 목표

  • 정신 건강 관리에서 도메인 특화 언어 모델의 필요성을 동기 부여한다.
  • 연구 커뮤니티에 공개적으로 이용 가능한 사전학습 모델을 제공한다.
  • 정신 건강 데이터에 대한 지속적인 사전학습이 다운스트림 분류 성능을 향상시킨다는 것을 입증한다.
  • 다양한 플랫폼에 걸친 다양한 정신 건강 탐지 벤치마크에서 모델을 평가한다.

제안 방법

  • 일반 도메인 체크포인트에서 시작하여 정신 건강 Reddit 코퍼스를 대상으로 지속적인 사전학습을 통해 BERT와 RoBERTa를 적응시킨다.
  • MentalRoBERTa에는 동적 마스킹이 적용된 마스크드 언어 모델링을, MentalBERT에는 기본 BERT를 사용한다.
  • [CLS] 임베딩과 MLP 분류기를 사용하여 다운스트림 과제에 사전학습된 모델을 미세조정한다.
  • 우울증, 불안, 스트레스, 자살 사고를 포함하는 다수의 정신 건강 데이터세트에서 모델을 평가한다.

실험 결과

연구 질문

  • RQ1정신 건강을 위한 도메인 특화 사전학습 모델이 일반 도메인 사전학습 모델보다 정신 건강 탐지 과제에서 더 우수한가?
  • RQ2다른 도메인(예: 생의학/임상)에서의 도메인 적응 사전학습보다 정신 건강 코퍼스에서의 지속적 사전학습이 정신 건강 과제에 더 효과적인가?
  • RQ3MentalBERT와 MentalRoBERTa가 다양한 데이터셋과 플랫폼(Reddit, Twitter, SMS 유사 데이터)에서 다양한 정신 장애에 대해 어떻게 수행하는가?

주요 결과

  • MentalRoBERTa는 종종 우울증 데이터셋(eRisk T1 및 CLPsych)과 여러 다른 장애 데이터셋(T-SID, SWMH, SAD, Dreaddit)에서 최상의 결과를 달성한다.
  • MentalBERT는 경쟁력이 있으며 Depression_Reddit 데이터셋에서 최고의 F1을, 일부 설정에서 UMD 데이터셋의 F1을 달성한다.
  • 정신 건강 데이터에 대한 도메인 특화 사전학습은 일반 도메인 모델보다 일반적으로 더 나은 성능을 보여주며 때때로 생의학/임상 도메인 사전학습보다 우수하다.
  • 정신 건강 도메인에서의 지속적 사전학습은 여러 과제에 걸쳐 다운스트림 분류 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.