[論文レビュー] The Pulse of News in Social Media: Forecasting Popularity
本稿では、ニュース記事の公開前におけるトゥイーター上の人気度を、ソース、カテゴリ、主観性、固有表現などの特徴を用いてコンテンツベースのアプローチで予測する手法を提案する。機械学習を用いて人気度の範囲(低/中/高)を分類する際、84%の精度を達成しており、記事のソースが最も予測力の高い要因であることが示され、伝統的なニュース機関とソーシャルメディアにおける主要なウイルス的コンテンツ発信源との間の乖離が浮き彫りになった。
News articles are extremely time sensitive by nature. There is also intense competition among news items to propagate as widely as possible. Hence, the task of predicting the popularity of news items on the social web is both interesting and challenging. Prior research has dealt with predicting eventual online popularity based on early popularity. It is most desirable, however, to predict the popularity of items prior to their release, fostering the possibility of appropriate decision making to modify an article and the manner of its publication. In this paper, we construct a multi-dimensional feature space derived from properties of an article and evaluate the efficacy of these features to serve as predictors of online popularity. We examine both regression and classification algorithms and demonstrate that despite randomness in human behavior, it is possible to predict ranges of popularity on twitter with an overall 84% accuracy. Our study also serves to illustrate the differences between traditionally prominent sources and those immensely popular on the social web.
研究の動機と目的
- 公開前の段階で、コンテンツレベルの特徴のみを用いて、トゥイターにおけるニュース記事のオンライン人気度を予測すること。
- 予測に早期のエンゲージメント指標が必要かどうか、それともコンテンツ特徴のみで十分かを検証すること。
- ソース、カテゴリ、主観性、固有表現といった記事レベルの特徴のうち、ソーシャルメディアでのウイルス的拡散を最も強く予測する要因を特定すること。
- 伝統的なニュース機関と、ソーシャルメディアに精通したインフルエンサーの間で、コンテンツの拡散に与える影響を比較すること。
- コンテンツのみの特徴を用いて、正確なツイート数ではなく人気度の範囲を予測する可能性を評価すること。
提案手法
- ニュースソース、ニュースカテゴリ、言語の主観性、固有表現の4つのコンテンツベース特徴を用いて、多次元の特徴空間を構築した。
- 言語的・メタデータ解析に基づく事前定義済みのスコア関数を用いて、各特徴に数値スコアを割り当てた。
- 回帰および分類モデル(SVM、決定木、バギング、ナイーブベイズ)を適用し、トゥイターにおける人気度の範囲を予測した。
- モデルの性能を評価し、妥当性を確保するために10分割交差検証を実施した。
- 1つの特徴を順次除外することで、個々の特徴が与える寄与度を評価するアブレーションスタディを実施した。
- 同じ特徴セットを用いて、記事がツイートを受け取るかどうか(ゼロツイート vs. 非ゼロツイート)を二値分類する分析を実施した。
実験結果
リサーチクエスチョン
- RQ1公開前の段階で、早期のエンゲージメント指標に依存せずに、コンテンツ特徴のみを用いてトゥイターにおけるニュースの人気度を予測できるか?
- RQ2ソース、カテゴリ、主観性、または固有表現といったコンテンツ特徴のうち、どの特徴がトゥイターにおけるニュース記事の人気度の範囲を最も強く予測するか?
- RQ3伝統的なニュース機関と、ソーシャルメディアに精通したブログ(インフルエンサー)の記事ソースの予測力は、どのように比較できるか?
- RQ4言語の主観性が、記事がトゥイターで共有される可能性にどの程度影響を与えるか?
- RQ5コンテンツ特徴のみを用いて、ツイートがゼロになる記事とそうでない記事を区別できるか?
主な発見
- 提案手法は、公開前のコンテンツ特徴のみを用いて、人気度の範囲(低、中、高)を分類する予測において、全体で84%の分類精度を達成した。
- ニュース記事のソースが最も顕著な予測要因であり、記事がトゥイターでウイルス的拡散を起こすかどうかに強く影響を与えていた。
- Mashable や Google Blog といったテクノロジー系ブログからの記事は、伝統的な主要ニュース機関ではないにもかかわらず、最も広く共有されていた。
- 主観性や固有表現は、予測性能の向上に顕著な寄与を示さなかったことから、読者はより主観的または固有表現が豊富なコンテンツを好まない可能性が示唆された。
- カテゴリ特徴は、トゥイターにおける人気度の予測には役立たなかったが、記事が共有されるかどうか(ゼロツイートか否か)の予測には役立った。これは、プラットフォーム全体にわたりテクノロジー系コンテンツにバイアスがある可能性を示唆している。
- ゼロツイート vs. 非ゼロツイートの二値分類では66%の精度を達成し、この予測において最も情報価値の高かった特徴はソースとカテゴリであった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。