QUICK REVIEW

[论文解读] Fake News Detection as Natural Language Inference

Kai Yang, Timothy Niven|arXiv (Cornell University)|Jul 17, 2019

Topic Modeling参考文献 12被引用 23

一句话总结

该论文通过将任务建模为自然语言蕴涵（NLI）问题，提出了一种针对中文新闻标题的虚假新闻检测系统，采用微调后的NLI模型与BERT的集成方法，并结合伪标签法和基于传递性的后处理策略。该方法在WSDM 2019虚假新闻分类挑战赛中取得了88.063%的测试准确率，位列第三，通过利用传递性关系提升了在重叠测试样本上的可靠性。

ABSTRACT

This report describes the entry by the Intelligent Knowledge Management (IKM) Lab in the WSDM 2019 Fake News Classification challenge. We treat the task as natural language inference (NLI). We individually train a number of the strongest NLI models as well as BERT. We ensemble these results and retrain with noisy labels in two stages. We analyze transitivity relations in the train and test sets and determine a set of test cases that can be reliably classified on this basis. The remainder of test cases are classified by our ensemble. Our entry achieves test set accuracy of 88.063% for 3rd place in the competition.

研究动机与目标

为解决在中文新闻标题中检测虚假新闻的挑战，采用自然语言蕴涵（NLI）作为统一框架。
通过多个高性能NLI模型与BERT的集成学习，提升分类准确率。
通过初始集成模型生成软标签并进行迭代微调，进一步提升性能。
利用训练集与测试集之间的重叠数据中的传递性关系，对部分测试样本实现可靠且高准确率的预测。
在WSDM 2019虚假新闻分类挑战赛中实现最先进性能。

提出的方法

将虚假新闻检测建模为三类自然语言蕴涵（NLI）任务：前提（已知的虚假新闻标题）、假设（候选标题）和标签（蕴涵、矛盾或中性）。
使用词向量和字符级嵌入（包括Tencent、SGNS和FastText）在中文文本上对多个高性能NLI模型（如分解注意力、ESIM、密集RNN/CNN）和BERT进行训练。
采用验证准确率进行早停，并结合Dropout进行正则化；使用LightGBM和前馈神经网络对第一级模型的预测结果进行集成。
从第一级集成模型生成软伪标签，并在两阶段训练过程中用其对所有NLI模型和BERT进行微调。
应用传递性推理：若A蕴涵B且B蕴涵C，则A应蕴涵C（正向传递性）；若A与B矛盾且B蕴涵C，则A应与C矛盾（负向传递性）。
通过加权平均（权重分别为0.79和0.21，由阈值搜索确定）融合第二级集成模型与BERT的最终预测结果，其中对6,888个测试样本，使用基于传递性的预测结果替代分类器输出。

实验结果

研究问题

RQ1自然语言蕴涵模型能否有效捕捉中文新闻标题中虚假新闻检测所需的语义关系？
RQ2在低资源、多语言虚假新闻检测任务中，集成学习与伪标签法能在多大程度上提升性能？
RQ3在重叠的训练与测试数据中，传递性关系在生成高置信度预测方面有多可靠？
RQ4通过传递性规则进行后处理，能否显著提升分类器本身预测的最终准确率？
RQ5在虚假新闻检测流程中，组合多个NLI模型与BERT的最优融合策略是什么？

主要发现

最终系统在测试集上达到88.063%的准确率，在WSDM 2019虚假新闻分类挑战赛中位列第三。
第一级NLI模型与BERT的集成模型准确率为86.741%，在使用伪标签进行第二级微调后，准确率提升至87.990%。
通过最优权重（0.79和0.21）将第二级预测结果与BERT结果融合，在应用传递性后处理前达到88.019%的准确率。
对6,888个测试样本应用传递性关系后，准确率提升0.04%至88.063%；其中99.9%的正向传递性案例和99.7%的负向传递性案例成立。
一项仅使用传递性预测的后期提交版本达到了93%的准确率，证明该方法在重叠数据上的可靠性。
作者估计，传递性规则可生成约70万个“一致”和1.9万个“不一致”样本对，显著扩展训练数据规模。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。