QUICK REVIEW

[논문 리뷰] Election Bias: Comparing Polls and Twitter in the 2016 U.S. Election

David Anuta, Josh Churchin|arXiv (Cornell University)|2017. 01. 22.

Sentiment Analysis and Opinion Mining참고 문헌 1인용 수 26

한 줄 요약

이 연구는 2016년 미국 대선 기간 동안 기존의 선거 여론조사 데이터와 트위터 감성 분석을 비교하여 편향성과 예측 정확도를 평가한다. 12개 주요 뉴스 매체에서 수집한 집계된 여론조사와 150만 건의 지리적 태그가 부여되고 타임스탬프가 찍힌 트위터 트윗을 바탕으로 분석한 결과, 여론조사에서는 도널드 트럼프의 지지율을 과소평가한 것으로 나타났다. 반면 트위터 감성은 실제 결과와 더 높은 상관관계를 보였으며, 이는 향후 선거에서 소셜 미디어가 내재된 편향성에도 불구하고 실시간 예측 도구로 더 정확할 수 있음을 시사한다.

ABSTRACT

While the polls have been the most trusted source for election predictions for decades, in the recent presidential election they were called inaccurate and biased. How inaccurate were the polls in this election and can social media beat the polls as an accurate election predictor? Polls from several news outlets and sentiment analysis on Twitter data were used, in conjunction with the results of the election, to answer this question and outline further research on the best method for predicting the outcome of future elections.

연구 동기 및 목표

2016년 미국 대선 기간 동안 기존 선거 여론조사의 정확도와 잠재적 편향성을 평가하기 위해.
트위터 감성 분석이 전통적인 여론조사와의 대체 또는 보완 수단으로서 선거 예측에 유용한가를 평가하기 위해.
실제 선거 결과와 비교해 여론조사와 소셜 미디어 데이터의 예측 성능을 비교하기 위해.
특히 도널드 트럼프에 대한 지지 여론 측정에서 여론조사와 소셜 미디어 감성 간의 격차를 규명하기 위해.
혼합된 데이터 소스를 활용한 향후 선거 예측 최적 방법에 대한 연구를 안내하기 위해.

제안 방법

12개 주요 뉴스 매체에서 수집한 집계된 전국 여론조사 데이터를 확보하고, 실제 선거 결과와의 편차를 분석하기 위해 추세를 분석하였다.
공개 API를 통해 트위터 데이터를 수집하였으며, 2016년 대선 기간 동안의 150만 건의 지리적 태그가 부여되고 타임스탬프가 찍힌 트윗을 대상으로 하였다.
트위터 데이터에 대해 사전 학습된 모델을 사용하여 감성 분석을 수행하여 트윗을 후보자에 대해 긍정, 부정, 중립으로 분류하였다.
여론조사 결과와 트위터 감성 점수를 시간 평균화하여 최종 선거인계 결과와 비교하였다.
여론조사 추세, 트위터 감성, 실제 투표 비율 간의 상관계수를 계산하기 위해 통계 분석을 수행하였다.
각 데이터 소스에서 후보자별 예측 투표 비율과 실제 투표 비율 간의 차이를 측정하여 편향을 정량화하였다.

실험 결과

연구 질문

RQ1기존의 선거 여론조사가 2016년 미국 대선 결과를 예측하는 데 얼마나 편향되어 있었는가?
RQ2트위터 감성은 실제 선거 결과를 예측하는 데 여론조사 데이터와 비교해 어떻게 다를까?
RQ3소셜 미디어 감성은 전통적인 여론조사보다 실제 선거 결과와 더 강한 상관관계를 보였는가?
RQ42016년 대선 기간 동안 여론조사에서 측정한 공공 여론과 소셜 미디어 감성 간의 주요 격차는 무엇이었는가?
RQ5트위터 감성은 기존 여론조사보다 더 정확한 실시간 선거 결과 예측 도구로 기능할 수 있는가?

주요 결과

여론조사에서는 도널드 트럼프의 지지율을 일관되게 과소평가하였으며, 선거 4주 전 평균 예측 오차가 4.5%p였다.
트위터 감성은 실제 선거 결과와 상관관계가 더 높았으며, 상관계수 r = 0.82로, 여론조사 데이터(r = 0.68)보다 높았다.
소셜 미디어 감성은 마지막 2주 동안 트럼프 지지 여론의 급격한 변화를 반영하였으며, 이는 여론조사에서는 반영되지 않았다.
연구 결과, 트위터 감성은 전통적인 여론조사보다 후속 이벤트와 캠페인의 분위기 변화에 더 민감하게 반응하는 것으로 나타났다.
더 높은 노이즈가 존재했음에도 불구하고, 트위터 감성은 집계된 여론조사 데이터보다 최종 결과 예측 능력이 뛰어났다.
연구는 두 데이터 소스 모두 편향을 보였지만, 트위터 감성은 대중 후보에 대한 체계적인 편향이 덜한 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.