[论文解读] Deep Two-path Semi-supervised Learning for Fake News Detection
本文提出了一种用于虚假新闻检测的深度双路径半监督学习模型(DTSL),通过共享和独立的卷积神经网络(CNNs)联合优化监督与无监督损失。利用已标注和未标注的Twitter数据,DTSL在低标注数据场景下表现出色,展现出对分布偏移的鲁棒性,并在PHEME数据集上优于监督基线模型。
News in social media such as Twitter has been generated in high volume and speed. However, very few of them can be labeled (as fake or true news) in a short time. In order to achieve timely detection of fake news in social media, a novel deep two-path semi-supervised learning model is proposed, where one path is for supervised learning and the other is for unsupervised learning. These two paths implemented with convolutional neural networks are jointly optimized to enhance detection performance. In addition, we build a shared convolutional neural networks between these two paths to share the low level features. Experimental results using Twitter datasets show that the proposed model can recognize fake news effectively with very few labeled data.
研究动机与目标
- 为解决在Twitter等社交媒体平台上实时虚假新闻检测中标签数据有限的挑战。
- 通过联合利用标签数据进行监督学习和未标签数据进行自监督表征学习,提升检测性能。
- 在训练与测试数据分布不一致时,减少过拟合并增强泛化能力。
- 在PHEME数据集上通过真实的留一事件交叉验证,验证模型的有效性。
- 证明半监督学习可在极少人工标注数据下显著提升虚假新闻检测性能。
提出的方法
- 模型使用共享CNN从输入推文提取低级特征,该特征在监督与无监督路径间共享。
- 监督路径由共享CNN后接具有512、256和128个滤波器的监督CNN组成,用于生成已标注样本的预测。
- 无监督路径使用相同的共享CNN,但连接到具有相同架构的独立无监督CNN,用于生成所有样本(包括未标注样本)的预测。
- 模型优化一个加权损失和:在已标注数据上的交叉熵损失,以及在所有样本上两路径预测结果之间的均方误差(MSE)损失。
- 通过预定函数在训练过程中逐步提升无监督损失权重,以渐进强调自监督。
- 训练使用ADAM优化器,超参数经调优以确保稳定性和收敛性,包括Dropout(0.8)、2层BRNN基线用于对比,以及100个训练周期。
实验结果
研究问题
- RQ1当仅有少量推文被标注时,双路径半监督CNN模型能否提升虚假新闻检测性能?
- RQ2监督与无监督损失的联合优化如何影响模型在不同事件分布下的泛化能力?
- RQ3在低标签数据条件下,该模型是否优于完全监督模型(如BRNN和传统机器学习模型)?
- RQ4在留一事件交叉验证下,模型表现如何?该设置模拟了真实世界部署场景。
- RQ5在训练与测试集数据分布不同时,标签数据比例的变化对模型性能有何影响?
主要发现
- 当仅使用5%的标注数据时,DTSL模型的宏F1分数达到53.90%,显著优于朴素贝叶斯(41.24%)和SVM(12.56%)等传统模型。
- 当标注比例增至10%时,模型宏F1分数达到61.53%,表明在标注数据有限时仍具强大性能。
- 当标注比例提高到30%时,宏F1分数下降至57.98%,表明可能存在分布偏移或因数据分布不匹配导致的过拟合。
- 在Ferguson(FE)事件中,该事件内容高度不平衡且具有显著差异,F1分数从5%时的22.22%提升至10%时的40.00%,以及30%时的50.00%,表明模型具备良好适应性。
- 模型对分布偏移表现出优越的鲁棒性,尤其在跨事件评估中显著优于监督模型(如BRNN和SVM)。
- 无监督损失组件(孪生CNN输出间的MSE)对性能有显著贡献,尤其在低数据场景下,通过改善特征泛化能力提升整体表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。