[论文解读] TIB's Visual Analytics Group at MediaEval '20: Detecting Fake News on Corona Virus and 5G Conspiracy
本文提出了一种基于 BERT 的方法,用于检测与 COVID-19 和 5G 共识阴谋论相关的 Twitter 假新闻,采用经过 COVID 调优的 BERT 模型生成上下文嵌入,并结合具有挤压-激励操作的浅层神经网络。该方法在 2 类设置下的官方测试集上取得了 0.6083 的 Matthews 相关系数(MCC),优于原始 BERT 模型,证明了领域特定预训练和池化策略在虚假信息检测中的价值。
Fake news on social media has become a hot topic of research as it negatively impacts the discourse of real news in the public. Specifi-cally, the ongoing COVID-19 pandemic has seen a rise of inaccurate and misleading information due to the surrounding controversies and unknown details at the beginning of the pandemic. The Fak-eNews task at MediaEval 2020 tackles this problem by creating a challenge to automatically detect tweets containing misinformation based on text and structure from Twitter follower network. In this paper, we present a simple approach that uses BERT embeddings and a shallow neural network for classifying tweets using only text, and discuss our findings and limitations of the approach in text-based misinformation detection.
研究动机与目标
- 开发一种仅基于文本的方法,用于检测社交媒体上与 COVID-19 和 5G 共识阴谋论相关的虚假信息。
- 评估领域特定 BERT 嵌入(COVID Twitter BERT)相较于原始 BERT 在检测阴谋论推文方面的有效性。
- 研究不同池化策略对 BERT 嵌入在句子级别分类中的影响。
- 评估额外的语言学特征(情感、主观性、词汇特征)是否能提升该任务的性能。
- 探讨 2 类与 3 类分类设置在模型置信度和性能指标方面的权衡。
提出的方法
- 使用在大规模 COVID 相关 Twitter 数据语料上微调的 BERT-large 嵌入(COVID Twitter BERT),以增强与任务领域的对齐。
- 应用文本预处理,包括归一化、拼写纠正,以及对用户提及、URL 和电子邮件的特殊标记替换。
- 通过拼接(4-CAT)或平均(4-SUM)方式池化 BERT 的最后四层隐藏层,提取句子级表示;同时评估单层池化(LAST、2-LAST)。
- 采用两层浅层神经网络,结合挤压-激励(SE)操作,以增强特征表示,随后投影至 128 维。
- 应用批量归一化、ReLU 激活函数、Dropout(0.2 和 0.5),并使用具有 Softmax 输出的最终线性分类层。
- 在五次 5 折交叉验证划分中采用多数投票进行测试预测,对于 3 类提交,设定置信度阈值为 0.4,以分配 '无法确定' 类别。
实验结果
研究问题
- RQ1使用在 COVID 相关 Twitter 数据上预训练的 BERT 模型是否能提升虚假信息检测性能,优于原始 BERT?
- RQ2对 BERT 最后隐藏状态采用不同池化策略(如拼接、平均、单层)如何影响分类性能?
- RQ3添加情感、主观性及词汇特征是否能提升检测准确率?
- RQ4在 2 类与 3 类分类设置之间选择,如何影响模型性能与对阴谋论推文的置信度?
- RQ5领域特定预训练在多大程度上减少了在新兴公共卫生议题中虚假新闻检测的领域差距?
主要发现
- COVID Twitter BERT 模型优于原始 BERT 模型,在微调四层时,验证集上的 MCC 达到 0.5952,而原始 BERT 仅为 0.4611。
- 2 类分类设置的 MCC 得分(0.6083)高于 3 类设置(0.5773),表明将非阴谋论与其它阴谋论类别合并可提升性能。
- 结合多层的池化策略(4-CAT 和 4-SUM)优于单层池化(LAST 和 2-LAST),其中 4-CAT 在验证集上达到最高的 MCC 0.5841。
- 添加情感、主观性和词汇特征并未提升性能,因此未被纳入最终模型。
- 该模型在 2 类设置下的官方测试集上取得了 0.6083 的 MCC,表明其在未见数据上具有强大的泛化能力。
- 基于置信度的 '无法确定' 类别分配(阈值 < 0.4)有效减少了对不确定样本的误分类。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。