Skip to main content
QUICK REVIEW

[论文解读] Transfer Learning from Transformers to Fake News Challenge Stance Detection (FNC-1) Task

Valeriya Slovikovskaya|arXiv (Cornell University)|Oct 31, 2019
Misinformation and Its Impacts被引用 25
一句话总结

该论文通过利用预训练的Transformer模型——BERT、XLNet和RoBERTa——进行迁移学习,在Fake News Challenge (FNC-1)任务中提升了立场检测性能。作者实现了最先进结果,其中RoBERTa在所有类别上均优于BERT和XLNet,并在相关类别上相比此前最佳模型(featMLP)显著提升了8%至20%。

ABSTRACT

In this paper, we report improved results of the Fake News Challenge Stage 1 (FNC-1) stance detection task. This gain in performance is due to the generalization power of large language models based on Transformer architecture, invented, trained and publicly released over the last two years. Specifically (1) we improved the FNC-1 best performing model adding BERT sentence embedding of input sequences as a model feature, (2) we fine-tuned BERT, XLNet, and RoBERTa transformers on FNC-1 extended dataset and obtained state-of-the-art results on FNC-1 task.

研究动机与目标

  • 通过利用大规模预训练Transformer模型的迁移学习,提升Fake News Challenge (FNC-1)任务中立场检测的性能。
  • 评估BERT、XLNet和RoBERTa的上下文嵌入是否能在分类任务中超越传统基于特征的模型。
  • 比较不同预训练模型(BERT、XLNet、RoBERTa)在FNC-1数据集上的有效性,并评估其在不同领域的泛化能力。
  • 通过Simple Transformers库提供可复现且易于访问的实现,使更广泛的社区能够使用微调后的模型。

提出的方法

  • 在FNC-1扩展数据集上微调BERT、XLNet和RoBERTa的基础版本,采用5个周期的训练计划,批量大小为4。
  • 最大序列长度为512个标记,BERT的学习率为3e-5,XLNet和RoBERTa的学习率为1e-5。
  • 使用Hugging Face Transformers库及Simple Transformers封装,以简化模型访问与微调流程。
  • 将BERT句子嵌入作为额外特征集成到此前表现最佳的模型(featMLP)中,从而提升其性能。
  • 通过在FNC-1上微调并在ARC上测试,以及反向操作,开展跨领域评估,以评估模型的泛化能力。
  • 使用标准指标(精确率、召回率和F1-score)评估模型性能,报告各类别及整体性能。

实验结果

研究问题

  • RQ1与先前最先进模型相比,从预训练Transformer模型进行迁移学习是否能显著提升FNC-1数据集上的立场检测性能?
  • RQ2在FNC-1立场检测任务中,不同预训练模型(BERT、XLNet、RoBERTa)的性能表现如何比较?
  • RQ3将BERT句子嵌入作为特征集成到现有模型架构中,是否能提升其性能?
  • RQ4微调后的模型在跨领域数据集(如ARC基准)上的泛化能力如何?
  • RQ5模型架构选择对立场检测中的零样本或跨领域迁移性能有何影响?

主要发现

  • 微调后的RoBERTa在FNC-1测试集上取得了85%的最高总体F1分数,优于BERT(71%)和XLNet(71%)的相同指标。
  • 表现最佳的模型(RoBERTa)在'不相关'类别上的F1分数相比此前最先进模型featMLP提升了20%。
  • 在'同意'类别上,RoBERTa的F1分数达到86%,而featMLP模型为71%,相对提升了15%。
  • 跨领域评估显示,当在FNC-1上微调并在ARC上测试时,RoBERTa的表现劣于BERT和XLNet,表明其可能存在领域敏感性。
  • 混淆矩阵显示,RoBERTa在'不相关'类别上的误分类率最低(正确预测20,838次),优于所有其他模型。
  • 将BERT句子嵌入作为特征集成到基线模型featMLP中,显著提升了其性能,证明了上下文表示在立场检测中的价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。