[论文解读] FakeNewsNet: A Data Repository with News Content, Social Context and Spatialtemporal Information for Studying Fake News on Social Media
本文介绍 FakeNewsNet,一个结合新闻内容、社交上下文和时空信息的多维数据仓库,用于研究社交媒体上的假新闻,并展示数据集、分析与基线检测结果。
Social media has become a popular means for people to consume news. Meanwhile, it also enables the wide dissemination of fake news, i.e., news with intentionally false information, which brings significant negative effects to the society. Thus, fake news detection is attracting increasing attention. However, fake news detection is a non-trivial task, which requires multi-source information such as news content, social context, and dynamic information. First, fake news is written to fool people, which makes it difficult to detect fake news simply based on news contents. In addition to news contents, we need to explore social contexts such as user engagements and social behaviors. For example, a credible user's comment that "this is a fake news" is a strong signal for detecting fake news. Second, dynamic information such as how fake news and true news propagate and how users' opinions toward news pieces are very important for extracting useful patterns for (early) fake news detection and intervention. Thus, comprehensive datasets which contain news content, social context, and dynamic information could facilitate fake news propagation, detection, and mitigation; while to the best of our knowledge, existing datasets only contains one or two aspects. Therefore, in this paper, to facilitate fake news related researches, we provide a fake news data repository FakeNewsNet, which contains two comprehensive datasets that includes news content, social context, and dynamic information. We present a comprehensive description of datasets collection, demonstrate an exploratory analysis of this data repository from different perspectives, and discuss the benefits of FakeNewsNet for potential applications on fake news study on social media.
研究动机与目标
- 需要综合包含内容、社交上下文和时空信息的假新闻数据集的必要性以提高研究质量。
- 描述 FakeNewsNet 的构建与公开发布,包含两个数据集和丰富特征。
- 展示探索性分析以刻画数据属性和基线假新闻检测性能。
- 讨论该数据仓库能够支持的潜在应用与研究机会。
提出的方法
- 使用端到端管道(FakeNewsTracker)将新闻内容、社交上下文和时空信息等多维数据整合。
- 从事实核查来源(PolitiFact、GossipCop)整合真假新闻的真值标签,并在需要时通过归档或网络搜索恢复内容。
- 通过从平台(如 Twitter)收集社交互动和元数据,汇集广泛的社交上下文数据(用户画像、帖子和网络信息)。
- 提取并总结内容特征(语言、视觉)和上下文信号(社交行为、互动模式)。
- 使用多种模型在仅内容、社交上下文及其融合(SAF 变体)上执行基线假新闻检测。
- 提供一个 API 和 数据结构,便于高效访问和子集检索大型数据仓库。
实验结果
研究问题
- RQ1内容、社交上下文和时空维度之间存在哪些特征和信号,可将假新闻与真实新闻区分开来?
- RQ2将社交上下文和时序信息纳入后,假新闻检测性能相比仅基于内容的模型有何提升?
- RQ3哪些基线基准和特征可以引导使用多维假新闻数据集的未来研究?
- RQ4该数据仓库如何支持早期假新闻检测与传播研究?
主要发现
- FakeNewsNet 将新闻内容、社交上下文和来自 PolitiFact 与 GossipCop 的时空数据结合, enabling 多面向的假新闻研究。
- 基于内容的模型在 PolitiFact 与 GossipCop 基线上的准确率约为 65-66%,融合模型(SAF)通常提高性能。
- 社交上下文特征(参与模式)与内容结合可提升检测;SAF(Social Article Fusion)在 PolitiFact 最高达到 0.691 的准确率,在 GossipCop 的 F1 达到 0.792,见报告结果。
- 机器人分析显示,假新闻相关用户中机器人的存在比例高于真新闻相关用户,且在互动类型(回复与转发)上存在显著差异。
- 时间模式显示,假新闻往往呈现快速的转发峰值且相较真实新闻有更少的回复,提示早期检测信号的潜在可能。
- 论文提供一个可扩展的 API 和数据格式,以访问大型数据集的子集,促进可重复性和再使用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。