QUICK REVIEW

[論文レビュー] Using Social Media to Predict the Future: A Systematic Literature Review

Lawrence Phillips, Chase Dowling|arXiv (Cornell University)|Jun 19, 2017

Complex Network Analysis Techniques参考文献 196被引用数 37

ひとこと要約

本系統的文献レビューでは、多様な分野における現実世界の出来事や特徴を予測するためにソーシャルメディア（SM）データを用いる方法を検討している。主なメソドロジカルな落とし穴として、データノイズ、バイアス、ドメイン理論の欠如を特定するとともに、特徴のフィルタリング、人口統計的バイアスの補正、過学習の防止、社会学的理論の統合といったベストプラクティスを提案することで、予測の正確性を向上させることを目的としている。

ABSTRACT

Social media (SM) data provides a vast record of humanity's everyday thoughts, feelings, and actions at a resolution previously unimaginable. Because user behavior on SM is a reflection of events in the real world, researchers have realized they can use SM in order to forecast, making predictions about the future. The advantage of SM data is its relative ease of acquisition, large quantity, and ability to capture socially relevant information, which may be difficult to gather from other data sources. Promising results exist across a wide variety of domains, but one will find little consensus regarding best practices in either methodology or evaluation. In this systematic review, we examine relevant literature over the past decade, tabulate mixed results across a number of scientific disciplines, and identify common pitfalls and best practices. We find that SM forecasting is limited by data biases, noisy data, lack of generalizable results, a lack of domain-specific theory, and underlying complexity in many prediction tasks. But despite these shortcomings, recurring findings and promising results continue to galvanize researchers and demand continued investigation. Based on the existing literature, we identify research practices which lead to success, citing specific examples in each case and making recommendations for best practices. These recommendations will help researchers take advantage of the exciting possibilities offered by SM platforms.

研究の動機と目的

ソーシャルメディアデータを用いて現実世界の出来事や特徴を予測する可能性と有効性を評価すること。
SMベースの予測研究における繰り返し発生するメソドロジカルな課題と制限を同定すること。
ドメイン固有の知識や理論が予測の正確性を向上させる役割を分析すること。
成功事例からベストプラクティスを抽出・コード化し、今後の研究を支援すること。
SM予測におけるメソドロジー、評価、再現可能性の分野で合意が得られていない問題に対処すること。

提案手法

過去10年間のSM予測研究に関する系統的文献レビューを実施し、複数の科学的分野にまたがる査読付き論文に焦点を当てた。
研究を分野（例：健康、政治、場所、人口統計）別に分類し、メソドロジカルアプローチ、データソース、予測ターゲットを評価した。
一般的な落とし穴（ノイズの多いデータ、バイアス（例：偏った人口統計的構成）、一般化の困難さ、ドメイン理論の不十分な統合）を同定および分析した。
高性能な研究からベストプラクティスを抽出し、キーワードのフィルタリング、人口統計的バイアスの補正、過学習を防ぐための特徴選択、ヒモトピック（同質性）の原則のような社会学的原則の使用を含めた。
ネットワーク構造（例：フォロー行動）を活用する戦略や、社会的影響理論などの理論枠組みを統合する戦略といったモデル設計戦略を評価した。
成功例と失敗例を示す事例研究（例：市民不安の予測に用いられたEMBERS、健康分野のGoogle Flu Trends）を用い、理論的根拠の重要性を強調した。

実験結果

リサーチクエスチョン

RQ1ソーシャルメディアデータは、多様な分野において現実世界の出来事や特徴を信頼性を持って予測するために使用可能だろうか？
RQ2ソーシャルメディア予測モデルの正確性と一般化可能性を制限する主なメソドロジカルな課題は何か？
RQ3ソーシャルメディアにおけるデータバイアスとノイズは予測性能にどのように影響を及ぼし、それらはどのように緩和できるか？
RQ4ドメイン固有の理論や社会学的原則を統合することで、予測結果はどの程度向上するのか？
RQ5データのフィルタリング、特徴選択、モデル設計におけるどのベストプラクティスが、より強固で再現可能な予測をもたらすのか？

主な発見

ソーシャルメディアデータは、ユーザーの場所、人口統計、市民不安、健康傾向など、複数の分野で予測力を持つことが実証された。
成功した予測は、ユーザーの行動と直接関連するトピック（例：場所、ソーシャルエンゲージメント）をターゲットにした場合に最も効果的である。
ドメイン固有の知識（例：ソーシャルネットワークにおけるヒモトピック、社会的影響理論）を統合したモデルは、スパarsなデータでも著しく性能が向上する。
Google Flu Trendsの失敗は、理論的根拠の欠如によるデータドリブンモデルのリスクを示しており、過学習や不正確な予測を引き起こした。
関係のないコンテンツのフィルタリング、人口統計的スケールの補正、慎重な特徴選択による過学習の回避といったベストプラクティスは、強固な予測に不可欠である。
継続的な課題が存在するが、一貫したメソドロジカルな改善と理論に基づいたモデリングにより、ソーシャルメディアデータを用いた信頼性があり一般化可能な予測が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。