[論文レビュー] The Predictive Power of Social Media: On the Predictability of U.S. Presidential Elections using Twitter
本研究では、2012年9月29日から11月16日までの3200万件の地理的位置タグ付き米国大統領選挙ツイートを対象に、機械学習および自然言語処理を用いて候補者の人気を予測した。感情分析とLDAトピックモデリングを用いた結果、ツイッターの感情は実際の選挙結果と密接に一致しており、オバマ氏が感情面でリードしていた。また、地理的センチメント分析により州レベルの人気度が反映され、ソーシャルメディアが選挙予測の信頼性が高く低コストなツールとして有効であることが裏付けられた。
Twitter as a new form of social media potentially contains useful information that opens new opportunities for content analysis on tweets. This paper examines the predictive power of Twitter regarding the US presidential election of 2012. For this study, we analyzed 32 million tweets regarding the US presidential election by employing a combination of machine learning techniques. We devised an advanced classifier for sentiment analysis in order to increase the accuracy of Twitter content analysis. We carried out our analysis by comparing Twitter results with traditional opinion polls. In addition, we used the Latent Dirichlet Allocation model to extract the underlying topical structure from the selected tweets. Our results show that we can determine the popularity of candidates by running sentiment analysis. We can also uncover candidates popularities in the US states by running the sentiment analysis algorithm on geo-tagged tweets. To the best of our knowledge, no previous work in the field has presented a systematic analysis of a considerable number of tweets employing a combination of analysis techniques by which we conducted this study. Thus, our results aptly suggest that Twitter as a well-known social medium is a valid source in predicting future events such as elections. This implies that understanding public opinions and trends via social media in turn allows us to propose a cost- and time-effective way not only for spreading and sharing information, but also for predicting future events.
研究の動機と目的
- 2012年米国大統領選挙の結果を、高い正確性で予測できるかどうかを調査すること。
- 伝統的な世論調査データと比較して、ツイッターベースの感情分析結果の信頼性と代表性を評価すること。
- 未教師付きトピックモデリング(LDA)を用いて、選挙関連のツイートから政治的議論の背後にあるトピックとトレンドを特定すること。
- 地理的位置タグ付きツイートを用いたセンチメント分析を通じて、州レベルでの候補者の人気を特定すること。
- 感情分析とトピックモデリングを統合した体系的で多段階のアプローチを構築・検証し、政治的予測における大規模なソーシャルメディアコンテンツ分析に応用すること。
提案手法
- 2012年9月29日から11月16日までに収集した3200万件の政治的ツイートを、米国大統領選挙関連の内容に焦点を当てて収集した。
- 候補者に対する肯定的・否定的センチメントをより正確に検出できるように、独自に開発した機械学習分類器を感情分析に採用した。
- トピックモデルであるラティントディレーチャー・アロケーション(LDA)を用いて、ツイートコーパスから潜在的なトピック構造を抽出し、政治的議論の主要テーマを同定した。
- 地理的位置タグ付きツイートをフィルタリングして、米国各州における候補者の人気度を地域別に評価する地理的センチメント分析を実施した。
- 同じ期間におけるツイッターのセンチメントトレンドと伝統的な世論調査の結果を比較し、予測の整合性を評価した。
- トピックモデリングを用いて、大統領討論などの重要な出来事周辺の議論パターンを分析し、繰り返し現れるトピックや語彙クラスタを同定した。
実験結果
リサーチクエスチョン
- RQ12012年米国大統領選挙を予測するために、ツイッターのデータを用いることは可能か?
- RQ2ツイッターのコンテンツ分析結果は、伝統的な世論調査の結果と比較可能なものか?
- RQ3地理的位置タグ付きツイートを用いたセンチメント分析は、州レベルでの候補者の人気を明らかにできるか?
- RQ42012年の選挙期間中に、ツイッター上で政治的議論として浮き彫りになる背後にあるトピックは何か?
- RQ5大統領討論のような主要な出来事が、ツイッター議論におけるセンチメントとトピックの変化にどのように影響を与えるか?
主な発見
- オバマ氏は、分析期間を通じて感情分析において一貫してリードしており、実際の選挙結果と一致した。
- 地理的センチメント分析により、既知の地域的投票傾向と一致する州レベルの人気パターンが明らかになり、この手法の空間的正確性が裏付けられた。
- LDAにより、ツイートコーパスから5つの主要トピックが効果的に抽出された。これらには討論、税制、外交政策、候補者の名前が含まれ、公共の議論の焦点を反映していた。
- 初回の大統領討論の直後には、「debate」(討論)、「mitt」(リック・ペイント)、「obama」(オバマ)の言及が急増し、公的関与の高まりが示された。
- ネガティブ広告が、特に選挙の直前数週間にわたり、センチメントトレンドに顕著な影響を与えた。
- ツイッターのセンチメントトレンドは、伝統的な世論調査の結果と強く相関しており、ソーシャルメディアが公共の世論をリアルタイムで信頼できる代替指標として機能することが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。