[论文解读] NELA-GT-2020: A Large Multi-Labelled News Dataset for The Study of Misinformation in News Articles
NELA-GT-2020 是一个大规模、多标签的新闻数据集,包含 178 万篇 2020 年间来自 519 个新闻源的英文新闻文章,其来源可靠性标签来自 Media Bias/Fact Check,且包含超过 41 万条嵌入的推文。该数据集支持在 COVID-19 大流行和 2020 年美国总统选举等重大事件期间,对虚假信息、媒体可靠性以及社交媒体与报纸媒体之间动态关系的研究。
In this paper, we present an updated version of the NELA-GT-2019 dataset, entitled NELA-GT-2020. NELA-GT-2020 contains nearly 1.8M news articles from 519 sources collected between January 1st, 2020 and December 31st, 2020. Just as with NELA-GT-2018 and NELA-GT-2019, these sources come from a wide range of mainstream news sources and alternative news sources. Included in the dataset are source-level ground truth labels from Media Bias/Fact Check (MBFC) covering multiple dimensions of veracity. Additionally, new in the 2020 dataset are the Tweets embedded in the collected news articles, adding an extra layer of information to the data. The NELA-GT-2020 dataset can be found at https://doi.org/10.7910/DVN/CHMUYZ.
研究动机与目标
- 为解决在虚假信息和媒体可靠性研究中缺乏大规模、长期且多标签新闻数据集的问题。
- 通过将时间范围扩展至 2020 年并增加数据量和来源多样性,扩展先前的 NELA-GT 数据集。
- 从新闻文章中整合嵌入的推文,以分析新闻媒体与社交媒体内容之间的相互作用。
- 支持在重大事件期间对媒体叙事和操纵行为进行稳健的机器学习与纵向研究。
- 提供公开可用、文档齐全的 SQLite 和 JSON 格式数据集,以支持虚假信息检测和媒体研究领域的可重复研究。
提出的方法
- 通过 feedparser 和 goose3 库自动抓取 RSS 订阅源,每日两次,从 2020 年 1 月 1 日至 12 月 31 日收集新闻文章。
- 基于 Media Bias/Fact Check (MBFC) 的事实性评分,聚合各来源的可靠性标签,分类为“不可靠”、“混合”或“可靠”。
- 使用 goose3 库从新闻文章的 HTML 中提取嵌入的推文,将推文内容、作者、日期和 URL 存储在专用数据库表中。
- 通过转为小写并去除特殊字符,对来源名称进行归一化处理,以确保一致性并避免重复。
- 在 2020 年第 13 至 15 周(3 月 25 日至 4 月 8 日)出现三周数据中断期间,采用线性插值法估算缺失数据,覆盖约 15,000 篇文章(占数据集总量的 0.8%)。
- 以两种格式发布数据集:结构化 SQLite 数据库和每个新闻来源的 JSON 字典,同时提供公开代码以支持数据访问。
实验结果
研究问题
- RQ1不同可靠性水平的新闻媒体在报道 COVID-19 大流行和 2020 年美国总统选举等重大事件时有何差异?
- RQ2新闻文章中嵌入的推文在多大程度上反映了或影响了新闻内容的真实性与叙事框架?
- RQ3将嵌入的推文整合到机器学习模型中,能否提升虚假信息检测或媒体可靠性判断的性能?
- RQ4MBFC 的媒体可靠性标签与 2020 年不同新闻来源的文章数量和主题分布之间存在何种关联?
- RQ5在重大事件期间,虚假信息在可靠、混合和不可靠新闻来源之间的传播具有怎样的时间动态特征?
主要发现
- NELA-GT-2020 包含来自 519 个来源的 1,779,127 篇新闻文章,相比 NELA-GT-2019 新增了 258 个来源,其中多为边缘化或不可靠的媒体。
- 数据集包含从新闻文章中收集的 410,432 条嵌入推文,每条推文均通过 URL 与来源文章关联,并存储了元数据。
- 在第 13 至 15 周(3 月 25 日至 4 月 8 日)发生数据中断,导致约 15,000 篇文章缺失,占总量的 0.8%,后通过插值法恢复以保证连续性。
- 数据集显示出对健康相关和一般性新闻主题的显著覆盖增加,超越了以往对政治内容的集中关注。
- 各可靠性类别(可靠、混合、不可靠)的文章和嵌入推文分布均衡且有明确记录,支持对比分析。
- 该数据集支持纵向研究,结合 NELA-GT 数据集的总跨度超过 3.5 年的新闻数据,可为虚假信息检测模型提供稳健性检验。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。