Skip to main content
QUICK REVIEW

[论文解读] Multi-Source Social Feedback of Online News Feeds

Nuno Moniz, Luı́s Torgo|arXiv (Cornell University)|Jan 22, 2018
Sentiment Analysis and Opinion Mining参考文献 23被引用 24
一句话总结

本论文提出一个大规模、多源的社会反馈数据集,包含来自 Google 新闻和 Yahoo! 新闻的 100,000 条新闻条目,涵盖 2015 年 11 月至 2016 年 7 月共 8 个月期间在 Facebook、Google+ 和 LinkedIn 上的相应流行度指标。该数据集支持预测分析的评估比较,适用于新闻推荐、情感分析和排序学习等任务,提供涵盖四个主题的全面、匿名化且公开可获取的社会互动数据。

ABSTRACT

The profusion of user generated content caused by the rise of social media platforms has enabled a surge in research relating to fields such as information retrieval, recommender systems, data mining and machine learning. However, the lack of comprehensive baseline data sets to allow a thorough evaluative comparison has become an important issue. In this paper we present a large data set of news items from well-known aggregators such as Google News and Yahoo! News, and their respective social feedback on multiple platforms: Facebook, Google+ and LinkedIn. The data collected relates to a period of 8 months, between November 2015 and July 2016, accounting for about 100,000 news items on four different topics: economy, microsoft, obama and palestine. This data set is tailored for evaluative comparisons in predictive analytics tasks, although allowing for tasks in other research areas such as topic detection and tracking, sentiment analysis in short text, first story detection or news recommendation.

研究动机与目标

  • 为解决在新闻推荐和社会反馈分析中缺乏全面、可访问且大规模的基准数据集以评估预测分析的问题。
  • 从多个平台(Facebook、Google+、LinkedIn)收集并整合社交媒体互动数据(分享、点赞、+1),来源为大型新闻聚合平台的新闻条目。
  • 创建一个标准化的、公开可用的数据集,以支持学习排序、情感分析和主题追踪等多样化研究任务的对比评估。
  • 通过仅依赖匿名化、聚合化且公开可访问的社会媒体 API,确保数据使用的伦理合规性,不包含任何个人身份信息。
  • 为信息检索、推荐系统和机器学习领域的研究人员提供可复现、文档齐全的数据源。

提出的方法

  • 在 8 个月的时间内(2015 年 11 月至 2016 年 7 月),从 Google 新闻和 Yahoo! 新闻中收集了 100,000 条新闻条目,涵盖四个主题:经济、微软、奥巴马和巴勒斯坦。
  • 使用官方媒体来源(新闻聚合平台)获取新闻内容和排名位置,作为新闻条目的真实来源。
  • 通过公共 API 收集社交反馈:使用 Facebook Graph API 获取分享数,使用 Google+ 公共端点获取 +1 数量,使用 LinkedIn 公共端点获取分享数。
  • 采用时间切片的数据采集方式,每 20 分钟采集一次,将流行度数据按时间片聚合,以追踪新闻病毒式传播的时序动态。
  • 对于无法获取的流行度数据,标记为 -1;由于 API 限制或不可用,Facebook 有 12.4% 的案例、Google+ 有 6.2% 的案例、LinkedIn 有 6.2% 的案例缺失。
  • 通过仅使用来自社交媒体平台的聚合化、匿名化且公开暴露的指标,确保数据隐私,避免使用任何用户级标识符。

实验结果

研究问题

  • RQ1来自主要新闻聚合平台的新闻条目在多个社交媒体平台上的病毒式传播和互动表现如何?
  • RQ2对于相同的新闻条目,Facebook、Google+ 和 LinkedIn 上的社会反馈在多大程度上相关或相异?
  • RQ3社交反馈数据的可获得性如何随时间变化,这对建模和评估有何影响?
  • RQ4该多源数据集能否作为新闻推荐和排序学习中训练与评估预测模型的可靠基线?
  • RQ5不同社交媒体平台(Facebook、Google+、LinkedIn)在新闻内容的用户行为和内容消费模式上反映出怎样的差异?

主要发现

  • 该数据集包含来自 Google 新闻和 Yahoo! 新闻的 100,000 条新闻条目,涵盖四个主题,历时 8 个月,涵盖多平台社交反馈。
  • Facebook 有 12.4% 的案例缺少分享数,28.9% 的案例未获得任何分享,表明社交互动中存在显著的数据稀疏性。
  • Google+ 有 6.2% 的案例缺少 +1 数量,且 59.1% 的新闻条目未获得任何 +1,凸显该平台在新闻内容上的互动水平较低。
  • LinkedIn 有 6.2% 的数据缺失,58.4% 的新闻条目未被分享,表明该专业社交网络在新闻传播中的覆盖范围有限。
  • 由于 API 限制或缺乏互动,Facebook、Google+ 和 LinkedIn 的流行度数据分别有 12.4%、6.2% 和 6.2% 无法获取。
  • 该数据集可公开获取,网址为 http://www.dcc.fc.up.pt/~nmoniz/MultiSourceNews,且包含一个 R 脚本,可立即使用,支持快速研究原型开发。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。