QUICK REVIEW

[論文レビュー] Modelling spatiotemporal variation of positive and negative sentiment on Twitter to improve the identification of localised deviations.

Zubair Shah, Paige Martin|arXiv (Cornell University)|Feb 22, 2018

Misinformation and Its Impacts参考文献 50被引用数 1

ひとこと要約

本研究では、2017年7月から11月にかけての100都市から収集された1,654万件の英語ツイートを対象に、16.54百万件のツイートに対して辞書ベースのセンチメント分析を用いて、タイムリーな感情の変動をモデル化した。都市と時間帯が、肯定的（R = 0.236）および否定的（R = 0.306）感情の分散の最も大きな要因であることが示された。また、ベースライン感情を考慮することで、ニュースイベントに関連する局所的逸脱の検出が向上した。

ABSTRACT

Studies examining how sentiment on social media varies over time and space appear to produce inconsistent results. Analysing 16.54 million English-language tweets from 100 cities posted between 13 July and 30 November 2017, our aim was to clarify how spatiotemporal and social factors contributed to variation in sentiment on Twitter. We estimated positive and negative sentiment for each of the cities using dictionary-based sentiment analysis and constructed models to explain differences in sentiment using time of day, day of week, weather, interaction type (social or non-social), and city as factors. Tests in a distinct but contiguous period of time showed that all factors were independently associated with sentiment. In the full multivariable model of positive (Pearson's R in test data 0.236; 95% CI 0.231-0.241), and negative (Pearson's R in test data 0.306 95% CI 0.301-0.310) sentiment, city and time of day explained more of the variance than other factors. Extreme differences between observed and expected sentiment using the full model appeared to be better aligned with international news events than degenerate models. In applications that aim to detect localised events using the sentiment of Twitter populations, it is useful to account for baseline differences before looking for unexpected changes.

研究の動機と目的

ソーシャルメディアにおけるセンチメント研究で不一致が生じる要因を解明するため、Twitterにおける時空間的および社会的要因がセンチメントに与える影響を分析すること。
時間帯、曜日、天候、相互作用タイプ、都市といった要因の中で、大規模なTwitterデータセットにおけるセンチメント変動に最も強く寄与する要因を特定すること。
局所的逸脱の検出を向上させるために、ベースラインセンチメントパターンを捉える多変量モデルを構築すること。
別々のテスト期間を用いてモデルの予測能力を検証し、国際的ニュースイベントと整合性があるかを評価すること。

提案手法

データセット内の各ツイートについて、辞書ベースのセンチメント分析を適用し、肯定的および否定的センチメントスコアを推定した。
時間帯、曜日、天候状態、相互作用タイプ（ソーシャル対比非ソーシャル）、都市を予測子として用いた多変量回帰モデルを構築した。
訓練期間（2017年7月13日〜11月30日）でモデルを学習し、連続するホールアウト期間で予測性能を評価した。
テストデータにおける観測値と予測値の間のピアソン積動差乗数（R）を計算し、モデルの適合度を評価した。
極端なセンチメントの逸脱が、ベースライン変動を考慮した場合にニュースイベントとよりよく一致するかどうかを検証するため、退化モデルとモデル性能を比較した。
都市レベルおよび時間的要因が、分散の説明に強く寄与していることから、主な説明変数とした。

実験結果

リサーチクエスチョン

RQ1時空間的および社会的要因の中で、Twitterにおける肯定的および否定的センチメントの変動に最も寄与するのはどれか？
RQ2時間帯、曜日、天候、相互作用タイプを用いた多変量モデルは、都市および時間帯を越えてセンチメント変動をどれほど正確に予測できるか？
RQ3ベースラインセンチメントを考慮することで、現実世界の出来事に関連する局所的逸脱の検出はどの程度向上するか？
RQ4完全なモデルを用いることで、極端なセンチメントの逸脱が、単純なベースラインモデルと比較して国際的ニュースイベントとより正確に一致するか？

主な発見

テストデータにおいて、都市と時間帯が、肯定的（R = 0.236；95％信頼区間 0.231–0.241）および否定的（R = 0.306；95％信頼区間 0.301–0.310）センチメントの分散に最も顕著な寄与を示した。
時間帯、曜日、天候、相互作用タイプ、都市のすべての要因が、多変量モデルにおいて独立してセンチメントに関連していた。
完全なモデルが予測した極端なセンチメントの逸脱は、退化モデルよりも国際的ニュースイベントとよりよく一致した。
完全なモデルがベースラインセンチメントパターンを捉える能力のおかげで、期待されるセンチメントからの局所的逸脱の検出が顕著に向上した。
モデルの予測性能は頑健であり、肯定的および否定的センチメント両方の次元において、観測値と予測値の間に中程度から強い相関が確認された。
天候および相互作用タイプは、統計的に有意な小さな効果を示しており、時間的および地理的要因に加え、文脈的要因の影響が存在することを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。