[论文解读] Automatic Detection of Fake News
这篇论文在多个领域引入了两个假新闻数据集,并提出基于语言特征的探测器,达到可观的准确率,人类基线在某些领域显示出可比甚至更好的性能。
The proliferation of misleading information in everyday access media outlets such as social media feeds, news blogs, and online newspapers have made it challenging to identify trustworthy news sources, thus increasing the need for computational tools able to provide insights into the reliability of online content. In this paper, we focus on the automatic identification of fake content in online news. Our contribution is twofold. First, we introduce two novel datasets for the task of fake news detection, covering seven different news domains. We describe the collection, annotation, and validation process in detail and present several exploratory analysis on the identification of linguistic differences in fake and legitimate news content. Second, we conduct a set of learning experiments to build accurate fake news detectors. In addition, we provide comparative analyses of the automatic and manual identification of fake news.
研究动机与目标
- 说明在跨领域评估在线新闻可靠性时需要计算工具的动机。
- 提供两组新的假新闻数据集(众包获取和网络来源)及其真实注释。
- 使用词汇、句法、可读性和心理语言学特征,探索假新闻与真实新闻之间的语言差异。
- 利用机器学习建立并评估假新闻检测器以建立基线,并与人类表现进行比较。
提出的方法
- 构建两组假新闻数据集:FakeNewsAMT(众包)和 Celebrity(网络来源),并包含配对的假/真文章。
- 提取广泛的特征集,包括N-gram(tf-idf)、标点符号(基于 LIWC)、LIWC 语义/心理语言学类别、可读性指标,以及语法(CFG 基)特征。
- 使用不同特征子集进行5折交叉验证训练线性SVM分类器,并以准确率、精确率、召回率和F1进行评估。
- 进行消融分析以识别各数据集的最佳特征集(例如 FakeNewsAMT 的可读性;Celebrity 的标点和 LIWC 变体)。
- 进行跨领域及跨域实验,以评估检测器的泛化能力。
- 比较自动检测器在两个数据集上的表现与人类标注者的表现。
实验结果
研究问题
- RQ1两个多领域假新闻数据集(众包与网络来源)是否能够支持有效的自动假新闻检测?
- RQ2哪些语言特征家族(词汇、句法、可读性、心理语言学)在跨域上最能区分假新闻与真实新闻?
- RQ3数据集之间以及新闻领域之间的跨域迁移表现如何?
- RQ4机器表现与人类在判断假新闻与真实新闻方面的能力相比如何?
主要发现
- 使用语言特征的检测器在各数据集上的准确率均显著高于随机(0.50)。
- 在 FakeNewsAMT 中,可读性特征表现最佳,准确率显著高于基线;将所有语言特征结合起来也表现强劲。
- 在 Celebrity 网络数据集,标点特征提供最强的单独性能,其次是 N-grams、完整 LIWC 和 语法特征。
- 跨域实验显示与同域结果相比性能显著下降,表明存在领域相关的欺骗线索。
- 跨域分析中,政治、教育和科技表现相对稳健的跨域性能,而体育、商业和娱乐更具领域特征。
- 与人类评判相比,自动检测器具有竞争力,在某些领域(Celebrity 领域)甚至优于人类。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。