[논문 리뷰] SMHD: A Large-Scale Resource for Exploring Online Language Usage for Multiple Mental Health Conditions
Self-reported Mental Health Diagnoses (SMHD) 데이터셋을 Reddit에서 소개하여 아홉 가지 정신 건강 상태와 매치된 대조군 간의 대규모 언어 사용 분석을 가능하게 하고, 이 자원에 대한 분류 방법들을 평가한다.
Mental health is a significant and growing public health concern. As language usage can be leveraged to obtain crucial insights into mental health conditions, there is a need for large-scale, labeled, mental health-related datasets of users who have been diagnosed with one or more of such conditions. In this paper, we investigate the creation of high-precision patterns to identify self-reported diagnoses of nine different mental health conditions, and obtain high-quality labeled data without the need for manual labelling. We introduce the SMHD (Self-reported Mental Health Diagnoses) dataset and make it available. SMHD is a novel large dataset of social media posts from users with one or multiple mental health conditions along with matched control users. We examine distinctions in users' language, as measured by linguistic and psychological variables. We further explore text classification methods to identify individuals with mental conditions through their language.
연구 동기 및 목표
- 아홉 가지 조건에 걸쳐 자가 보고된 정신건강 진단을 식별하기 위한 고정밀 패턴을 개발한다.
- 진단된 사용자와 매칭된 대조군을 포함한 대규모 라벨링된 Reddit 데이터셋(SMHD)을 구축한다.
- LIWC 및 기타 지표를 사용하여 진단된 그룹과 대조군 간의 언어학적 및 심리언어학적 차이를 분석한다.
- Reddit의 언어로부터 정신건강 상태를 탐지하기 위한 텍스트 분류 방법을 탐색한다.
- 정신건강 언어학 연구의 재현 가능한 연구를 지원하기 위한 데이터와 방법론을 제공한다.
제안 방법
- 고정밀 진단 패턴을 통해 진단 키워드를 조건 용어와 정의된 근접성 내에서 비교하여 진단 사용자를 식별한다.
- MedSyn 및 행동 매핑을 사용하여 동의어 및 구어 용어로 조건 용어 목록을 확장한다.
- 특징을 형성할 때 게시물의 정신건강 관련 콘텐츠를 제거하여 분류가 비정신건강 텍스트를 사용하도록 한다.
- 대조군의 경우, 정신건강 게시물이 없는 채로 교차(subreddits)와 비슷한 게시 활동을 가진 사용자를 선택한다.
- 더 많은 진단 사용자가 필요한 연구를 위한 느슨한 대조군을 가진 이차 데이터셋(smhd-rc)을 제공한다.
- BoW tf-idf 특징과 다중레이블 설정에서 기본 및 고급 분류기(Logistic Regression, XGBoost, Linear SVM, Supervised FastText, CNN)를 평가한다.
실험 결과
연구 질문
- RQ1아홉 가지 조건에 걸쳐 정신건강 상태로 진단된 Reddit 사용자와 매칭된 대조군 간의 언어 패턴은 어떻게 다르는가?
- RQ2고정밀 패턴 기반 레이블링이 Reddit의 정신건강 분석을 위한 확장 가능하고 고품질의 레이블된 데이터를 생성할 수 있는가?
- RQ3어떤 언어 특징과 분류기가 게시물에서 정신건강 진단을 가진 사용자를 가장 효과적으로 식별하는가?
- RQ4SMHD 데이터셋 내 여러 정신건강 상태의 동시발생(co-occurrence) 패턴은 무엇인가?
주요 결과
- SMHD 데이터셋은 아홉 가지 조건에 걸쳐 20,406명의 진단된 사용자와 335,952명의 매칭된 대조군을 포함한다.
- 진단된 사용자는 LIWC 기반 언어 범주에서 대조군과 의미 있는 차이를 보이며 효과 크기는 작게에서 중간까지 다양하고(d는 최대 대략 0.5까지).
- 다수의 정신건강 그룹에서 더 높은 진정성 있는 언어 사용과 1인칭 대명사 사용 증가 등의 특정 패턴이 널리 나타난다.
- 대조군 사용자는 더 높은 영향력(clout)과 여가/금전 관련 언급이 더 많으며, 다수의 인지 및 사회과정 범주가 그룹을 구분한다.
- 우울증은 불안 및 다른 조건과 상당한 비율로 동시발생하며(예: 우울증을 가진 약 30%가 불안도 나타냄).
- 데이터셋은 이진 및 다중 레이블 다중 클래스 분류 실험을 모두 지원하며, 여러 모델이 진단된 사용자를 탐지하고 상태를 예측하는 데 서로 다른 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.