Skip to main content
QUICK REVIEW

[论文解读] Adversarial attacks against Fact Extraction and VERification

James Thorne, Andreas Vlachos|arXiv (Cornell University)|Mar 13, 2019
Adversarial Robustness in Machine Learning参考文献 29被引用 22
一句话总结

本文提出一种基于规则的方法,通过扰动 FEVER 数据集中的声明来生成对抗性样本,同时保持或改变蕴含关系。实验表明,最先进模型在这些对抗性样本上的准确率最高下降 29.16%,凸显了其在训练数据分布之外的鲁棒性与泛化能力方面的脆弱性。

ABSTRACT

This paper describes a baseline for the second iteration of the Fact Extraction and VERification shared task (FEVER2.0) which explores the resilience of systems through adversarial evaluation. We present a collection of simple adversarial attacks against systems that participated in the first FEVER shared task. FEVER modeled the assessment of truthfulness of written claims as a joint information retrieval and natural language inference task using evidence from Wikipedia. A large number of participants made use of deep neural networks in their submissions to the shared task. The extent as to whether such models understand language has been the subject of a number of recent investigations and discussion in literature. In this paper, we present a simple method of generating entailment-preserving and entailment-altering perturbations of instances by common patterns within the training data. We find that a number of systems are greatly affected with absolute losses in classification accuracy of up to $29\%$ on the newly perturbed instances. Using these newly generated instances, we construct a sample submission for the FEVER2.0 shared task. Addressing these types of attacks will aid in building more robust fact-checking models, as well as suggest directions to expand the datasets.

研究动机与目标

  • 评估在 FEVER 数据集上训练的事实核查模型对对抗性扰动的鲁棒性。
  • 探究对声明进行简单、基于规则的转换是否能生成有效的对抗性样本,以暴露模型的脆弱性。
  • 通过生成和评估对抗性样本,为 FEVER2.0 共享任务的“break-it”阶段提供基线。
  • 评估这些攻击对事实核查流程中信息检索与自然语言推理组件的影响。
  • 发布工具与数据,以支持未来在 NLP 事实核查领域模型鲁棒性与对抗泛化方面的研究。

提出的方法

  • 对 FEVER 数据集中声明应用基于规则的转换,生成蕴含关系保持或改变的新样本。
  • 使用与原始声明相同的证据,避免需要新的证据检索,仅聚焦于声明层面的扰动。
  • 根据声明与证据之间的逻辑关系,将转换后的声明分类为三类标签:支持(Supported)、反驳(Refuted)或证据不足(NotEnoughInfo)。
  • 通过计算被错误分类的系统所占百分比来衡量攻击的有效性。
  • 对生成的声明中的 30% 进行人工评估,以检查语法正确性及是否符合提交指南。
  • 使用分层抽样方法,构建包含 1,000 个对抗性样本的平衡样本提交,用于 FEVER2.0 的 break-it 阶段。

实验结果

研究问题

  • RQ1基于规则的声明扰动在多大程度上会降低最先进事实核查模型的性能?
  • RQ2不同类型的转换——蕴含关系保持型与蕴含关系改变型——如何影响模型的鲁棒性?
  • RQ3事实核查流程中的哪些组件(信息检索或自然语言推理)最易受到这些对抗性攻击的影响?
  • RQ4当暴露于同一组对抗性样本时,不同模型的抗性表现如何变化?
  • RQ5简单、低成本的基于规则的方法能否生成语法正确且能有效降低模型性能的对抗性样本?

主要发现

  • 使用基于规则的转换进行对抗性攻击,导致测试模型的准确率绝对下降最高达 29.16%,降幅在 11.32% 至 29.16% 之间。
  • 在原始 FEVER 共享任务中表现最佳的模型(Papelo)在对抗性评估中展现出最强的鲁棒性,达到 63.16% 的鲁棒性得分。
  • UCL 系统虽在原始任务中排名第二,但在对抗性评估中表现优于排名第一的 UNC 系统,表明其在数据使用与泛化能力方面存在差异。
  • 在提交的对抗性声明中,约 60% 为蕴含关系保持型转换,且这些转换在暴露模型弱点方面更为有效。
  • 人工评估发现,90% 的生成对抗性声明语法正确且符合提交指南,10% 因语言复杂性或系统性错误而失败。
  • 经人工筛选后,基于规则方法的调整后有效度得分为 56.32%,反映出攻击的有效性与声明质量的综合表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。