[논문 리뷰] Modelling spatiotemporal variation of positive and negative sentiment on Twitter to improve the identification of localised deviations.
이 연구는 2017년 7월에서 11월 사이에 100개 도시에서 수집된 1,654만 건의 영어 트윗을 대상으로 사전 기반 감성 분석을 사용하여 트위터 상의 시공간적 감성 변동성을 모델링한다. 도시와 시간대가 긍정(상관계수 R = 0.236) 및 부정(상관계수 R = 0.306) 감성의 가장 큰 변동성을 설명하며, 기본 감성 수준을 고려함으로써 뉴스 사건과 연관된 국지적 감성 이탈을 보다 잘 탐지할 수 있음을 보여준다.
Studies examining how sentiment on social media varies over time and space appear to produce inconsistent results. Analysing 16.54 million English-language tweets from 100 cities posted between 13 July and 30 November 2017, our aim was to clarify how spatiotemporal and social factors contributed to variation in sentiment on Twitter. We estimated positive and negative sentiment for each of the cities using dictionary-based sentiment analysis and constructed models to explain differences in sentiment using time of day, day of week, weather, interaction type (social or non-social), and city as factors. Tests in a distinct but contiguous period of time showed that all factors were independently associated with sentiment. In the full multivariable model of positive (Pearson's R in test data 0.236; 95% CI 0.231-0.241), and negative (Pearson's R in test data 0.306 95% CI 0.301-0.310) sentiment, city and time of day explained more of the variance than other factors. Extreme differences between observed and expected sentiment using the full model appeared to be better aligned with international news events than degenerate models. In applications that aim to detect localised events using the sentiment of Twitter populations, it is useful to account for baseline differences before looking for unexpected changes.
연구 동기 및 목표
- 대규모 트위터 데이터셋에서 시공간적 및 사회적 요인이 감성에 미치는 영향을 분석함으로써 소셜 미디어 감성 연구에서의 모순된 결과를 명확히 하기 위해.
- 시간대, 요일, 기상 조건, 상호작용 유형, 도시 중 어떤 요인이 대규모 트위터 데이터셋에서 감성 변동성에 가장 강하게 기여하는지 규명하기 위해.
- 기본 감성 패턴을 포괄하는 다변량 모델을 개발하여 기대감성에서의 국지적 이탈을 향상된 방식으로 탐지하기 위해.
- 독립된 테스트 기간을 사용하여 모델의 예측 능력을 검증하고 국제 뉴스 사건과의 일치 정도를 평가하기 위해.
제안 방법
- 데이터셋 내 각 트윗의 긍정 및 부정 감성 점수를 추정하기 위해 사전 기반 감성 분석을 적용하였다.
- 시간대, 요일, 기상 조건, 상호작용 유형(소셜 대비 비소셜), 도시를 예측 변수로 사용하여 다변량 회귀 모델을 구축하였다.
- 학습 기간(2017년 7월 13일~11월 30일) 동안 전체 모델을 훈련하고, 예측 성능를 평가하기 위해 연속된 테스트 기간에 대해 검증하였다.
- 관측된 감성과 예측된 감성 간 피어슨 상관계수(R)를 계산하여 테스트 데이터에서의 모델 적합도를 평가하였다.
- 기본 감성 변동을 고려함으로써 극단적 감성 이탈이 뉴스 사건과 더 잘 일치하는지 확인하기 위해, 열악한 모델과의 성능을 비교하였다.
- 도시 수준 및 시간적 요소가 설명 분산에 기여도가 높아, 주요 설명 변수로 간주하였다.
실험 결과
연구 질문
- RQ1트위터 상의 긍정 및 부정 감성 변동성에 가장 기여하는 시공간적 및 사회적 요인는 무엇인가?
- RQ2시간대, 요일, 기상 조건, 상호작용 유형을 고려한 다변량 모델이 도시와 시간대에 걸쳐 감성 변동성을 얼마나 잘 예측할 수 있는가?
- RQ3기본 감성 수준을 고려함으로써 실제 세계의 사건과 연관된 국지적 감성 이탈 탐지 능력은 어느 정도 향상되는가?
- RQ4기본 감성 변동을 고려함으로써, 전체 모델이 단순한 기초 모델 대비 극단적 감성 이탈이 국제 뉴스 사건과 더 잘 일치하는가?
주요 결과
- 테스트 데이터에서 도시와 시간대가 긍정 감성(R = 0.236; 95% 신뢰구간 0.231–0.241) 및 부정 감성(R = 0.306; 95% 신뢰구간 0.301–0.310)의 변동성에 가장 큰 기여를 하였다.
- 시간대, 요일, 기상 조건, 상호작용 유형, 도시 모두 다변량 모델에서 감성과 독립적으로 연관되어 있었다.
- 전체 모델이 예측한 극단적 감성 이탈은 열악한 모델 대비 국제 뉴스 사건과 더 잘 일치하였다.
- 전체 모델이 기본 감성 패턴을 포괄함으로써 기대 감성에서의 국지적 이탈 탐지 능력이 크게 향상되었다.
- 모델의 예측 성능는 탄탄했으며, 긍정 및 부정 감성 차원에서 관측된 감성과 예측된 감성 간 중간에서 강한 상관관계를 보였다.
- 기상 조건과 상호작용 유형은 감성에 미치는 영향은 작지만 통계적으로 유의미하여, 시간적 및 지리적 요인 외의 맥락적 영향을 시사하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.