Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Source Social Feedback of Online News Feeds

Nuno Moniz, Luı́s Torgo|arXiv (Cornell University)|Jan 22, 2018
Sentiment Analysis and Opinion Mining参考文献 23被引用数 24
ひとこと要約

本論文は、2015年11月から2016年7月の8か月間にわたり、Google NewsおよびYahoo! Newsの10万件のニュース記事について、Facebook、Google+、LinkedInにおける人気指標を含む大規模かつマルチソースのソーシャルフィードバックデータセットを紹介する。このデータセットは、ニュース推薦、センチメント分析、ランク学習などのタスクを支援する予測分析の評価的比較を可能にし、4つのトピックにわたる包括的で匿名化され、公開可能なソーシャルエンゲージメントデータを提供する。

ABSTRACT

The profusion of user generated content caused by the rise of social media platforms has enabled a surge in research relating to fields such as information retrieval, recommender systems, data mining and machine learning. However, the lack of comprehensive baseline data sets to allow a thorough evaluative comparison has become an important issue. In this paper we present a large data set of news items from well-known aggregators such as Google News and Yahoo! News, and their respective social feedback on multiple platforms: Facebook, Google+ and LinkedIn. The data collected relates to a period of 8 months, between November 2015 and July 2016, accounting for about 100,000 news items on four different topics: economy, microsoft, obama and palestine. This data set is tailored for evaluative comparisons in predictive analytics tasks, although allowing for tasks in other research areas such as topic detection and tracking, sentiment analysis in short text, first story detection or news recommendation.

研究の動機と目的

  • ニュース推薦およびソーシャルフィードバック分析における予測分析を評価するための包括的でアクセス可能で大規模なベンチマークデータセットの不足に対処すること。
  • 主なニュースアグリゲーターからのニュース記事について、複数のプラットフォーム(Facebook、Google+、LinkedIn)におけるソーシャルメディアのエンゲージメントデータ(シェア数、いいね、+1)を収集・統合すること。
  • 学習するためのランク付け、センチメント分析、トピック追跡などの多様な研究タスクにおける比較評価を支援する、標準化され、公開可能なデータセットを構築すること。
  • 個人を特定できる情報が一切含まれない、匿名化され、集計された、公開可能なソーシャルメディアAPIに依存することで、倫理的なデータ利用を確保すること。
  • 情報検索、レコメンデーションシステム、機械学習分野の研究者にとって再現可能で、詳細に文書化されたデータソースを提供すること。

提案手法

  • 2015年11月から2016年7月までの8か月間にわたり、経済、マイクロソフト、オバマ、パレスチナの4つのトピックについて、Google NewsおよびYahoo! Newsから10万件のニュース記事を収集した。
  • 公式メディアソース(ニュースアグリゲーター)を用いてニュースコンテンツおよびランク順位を取得し、ニュース記事の真実の出典としての役割を果たした。
  • 公開APIを介してソーシャルフィードバックを収集した:Facebook Graph APIでシェア数、Google+のパubbリックエンドポイントで+1数、LinkedInのパubbリックエンドポイントでシェア数を取得した。
  • 20分ごとのタイムスライスによるデータ収集を実施し、各タイムスライスにわたり人気データを集計することで、ニュースのウイルス的拡散の時間的ダイナミクスを追跡した。
  • 欠損データの処理として、取得不能な人気指標値を-1としてマークした。Facebookでは12.4%、Google+では6.2%、LinkedInでは6.2%がAPIの制限や利用不能により欠損した。
  • 個人識別子を一切含まない、集計され、匿名化され、公開されたメトリクスのみを用いることで、データプライバシーを確保した。

実験結果

リサーチクエスチョン

  • RQ1主要なアグリゲーターからのニュース記事は、複数のソーシャルメディアプラットフォームにおいて、ウイルス的拡散およびエンゲージメントの観点でどのように性能を発揮するか?
  • RQ2同じニュース記事について、Facebook、Google+、LinkedInにおけるソーシャルフィードバックはどの程度相関的または相違するか?
  • RQ3ソーシャルフィードバックデータの可用性は時間経過とともにどのように変化するのか。また、これによりモデリングや評価にどのような影響を与えるか?
  • RQ4このマルチソースデータセットは、ニュース推薦およびランク学習における予測モデルのトレーニングおよび評価のための信頼できるベースラインとして機能できるか?
  • RQ5Facebook、Google+、LinkedInなどの異なるソーシャルプラットフォームは、ニュースコンテンツのユーザー行動およびコンテンツ消費パターンをどのように異なる形で反映しているか?

主な発見

  • 本データセットは、Google NewsおよびYahoo! Newsの10万件のニュース記事を含み、4つのトピックにわたる8か月間のマルチプラットフォームのソーシャルフィードバックを収集したものである。
  • Facebookでは12.4%のケースでシェア数が欠損し、28.9%のケースでシェアがゼロであったため、ソーシャルエンゲージメントにおいて顕著なデータスパarsityが生じていることが示された。
  • Google+では6.2%の+1数が欠損し、59.1%のニュース記事が+1を受けていなかったため、ニュースコンテンツにおけるこのプラットフォームのエンゲージメントが低いことが明らかになった。
  • LinkedInでは6.2%のデータが欠損し、58.4%のニュース記事がシェアされていなかったため、このプロフェッショナルネットワークにおけるニュースのリーチが限定的であることが示された。
  • Facebookの12.4%、Google+の6.2%、LinkedInの6.2%のエンゲージメントデータが、APIの制限やエンゲージメントの欠如により入手不能であった。
  • 本データセットは http://www.dcc.fc.up.pt/~nmoniz/MultiSourceNews で公開されており、即時利用可能なRスクリプトを併記しており、研究の素早いプロトタイピングを支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。