[논문 리뷰] Understanding and Measuring Psychological Stress using Social Media
이 연구는 601명의 사용자로부터 확보한 페이스북 및 트위터 데이터와 기준값으로 사용된 주관적 스트레스 척도(PSS) 점수를 바탕으로, 사회 미디어에서 심리적 스트레스를 예측하기 위한 언어 모델을 개발하고 검증한다. 연구는 페이스북 언어가 트위터 언어보다 스트레스 예측에 더 유의미하게 기여하며, 도메인 적응 기법을 활용해 개인 수준의 모델을 카운티 수준의 예측으로 확장하는 데 성공했으며, 개인 및 지역 수준의 스트레스 추정에서 사회 인구통계학적 변수를 능가한다.
A body of literature has demonstrated that users' mental health conditions, such as depression and anxiety, can be predicted from their social media language. There is still a gap in the scientific understanding of how psychological stress is expressed on social media. Stress is one of the primary underlying causes and correlates of chronic physical illnesses and mental health conditions. In this paper, we explore the language of psychological stress with a dataset of 601 social media users, who answered the Perceived Stress Scale questionnaire and also consented to share their Facebook and Twitter data. Firstly, we find that stressed users post about exhaustion, losing control, increased self-focus and physical pain as compared to posts about breakfast, family-time, and travel by users who are not stressed. Secondly, we find that Facebook language is more predictive of stress than Twitter language. Thirdly, we demonstrate how the language based models thus developed can be adapted and be scaled to measure county-level trends. Since county-level language is easily available on Twitter using the Streaming API, we explore multiple domain adaptation algorithms to adapt user-level Facebook models to Twitter language. We find that domain-adapted and scaled social media-based measurements of stress outperform sociodemographic variables (age, gender, race, education, and income), against ground-truth survey-based stress measurements, both at the user- and the county-level in the U.S. Twitter language that scores higher in stress is also predictive of poorer health, less access to facilities and lower socioeconomic status in counties. We conclude with a discussion of the implications of using social media as a new tool for monitoring stress levels of both individuals and counties.
연구 동기 및 목표
- 심리적 스트레스가 사회 미디어 게시물에서 언어적으로 어떻게 표현되는지, 특히 상태 스트레스와 특성 스트레스를 구분하여 이해하는 것.
- 표준화된 심리학적 설문지(PSS)에 기반하여 페이스북 및 트위터 데이터를 활용해 개인 수준의 언어 모델을 개발하고 검증하는 것.
- 개인 수준의 스트레스 모델을 카운티 수준의 예측으로 확장하는 데 있어 도메인 적응 기법을 활용한 도전 과제를 해결하는 것.
- 개인 및 지리적 수준에서 사회 미디어 언어의 예측 능력이 사회 인구통계학적 변수와 기준값 설문 데이터와 비교하여 어떻게 평가되는지 확인하는 것.
- 사회 미디어 언어가 실시간으로 비침습적으로 스트레스를 모니터링하고 대규모 공중 보건 개입을 지원하는 데 유용한 도구로 활용될 수 있는지 탐색하는 것.
제안 방법
- 601명의 사용자로부터 주관적 스트레스 척도(PSS) 설문지를 완료한 사람들로부터 페이스북 및 트위터 데이터를 수집하였다.
- 언어적 특징(예: LIWC 사전)을 사용하여 사용자 게시물에서 스트레스 수준을 예측하는 지도 학습 기반 언어 모델을 훈련시켰다.
- 트위터 언어로의 스트레스 모델 전이를 위해 전이 학습 및 도메인 적응 기법을 적용하였으며, 자가 공개 성향의 플랫폼 간 차이를 고려했다.
- 스트리밍 API를 통해 트위터 데이터의 카운티 수준 집계를 활용하여 지역적 범위로의 예측 확장을 수행하였다.
- 개인 수준에서 카운티 수준로의 일반화 시 생길 수 있는 생태학적 오류를 방지하기 위해 가중치 조정 및 스케일링 기법을 적용하였다.
- 개인 및 카운티 수준에서 기준값 PSS 점수와 비교하여 모델 성능을 검증하였으며, 연령, 성별, 인종, 교육 수준, 소득 등의 사회 인구통계학적 변수와도 비교하였다.
실험 결과
연구 질문
- RQ1심리적 스트레스는 사회 미디어 게시물에서 어떻게 언어적으로 표현되는가, 비스트레스 관련 주제와 대비하여 어떻게 다를 수 있는가?
- RQ2페이스북 언어가 트위터 언어보다 스트레스 예측에 얼마나 더 유의미하게 기여하는가, 그리고 그 이유는 무엇인가?
- RQ3페이스북 데이터로 훈련된 개인 수준의 스트레스 모델을 트위터 데이터를 활용해 카운티 수준의 스트레스를 예측하는 데 효과적으로 적응시킬 수 있는가?
- RQ4언어 기반 스트레스 모델은 개인 및 카운티 수준에서 사회 인구통계학적 변수와 비교하여 어떻게 예측 성능을 보이는가?
- RQ5사회 미디어에서 유도된 카운티 수준의 스트레스 점수는 실제 건강 결과 및 사회 경제적 지표와 어떤 연관이 있는가?
주요 결과
- 스트레스를 느끼는 사용자는 피로, 통제력 상실, 자기 중심적 주제, 신체적 고통에 대해 더 자주 게시물을 올렸고, 비스트레스 사용자는 아침 식사, 가족 시간, 여행에 대해 논의하였다.
- 페이스북 언어는 트위터 언어보다 스트레스 예측에 유의미하게 더 높은 예측력을 보였으며, 이는 자가 공개 성향과 게시물 길이의 플랫폼 간 차이 때문일 수 있다.
- 페이스북 데이터로 훈련된 도메인 적응 언어 모델을 트위터 데이터에 적용하여 카운티 수준의 스트레스를 성공적으로 예측했으며, 사회 인구통계학적 변수를 능가했다.
- 트위터 언어로부터 유도된 카운티 수준의 스트레스 점수는 건강 상태가 열 劣, 시설 접근성 저하, 사회 경제적 수준 저하와 상관이 있었다.
- LIWC와 같은 언어 사전이 게시 빈도와 같은 참여 기반 특징보다 스트레스 예측에서 더 뛰어난 성능을 보였으며, 행동보다 콘텐츠의 중요성을 강조한다.
- 본 연구는 사회 미디어 언어가 개인 및 지리적 수준에서 심리적 스트레스의 타당하고 확장 가능하며 실시간 대체 지표로 기능할 수 있음을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.