Skip to main content
QUICK REVIEW

[论文解读] Adversarial Examples for Evaluating Reading Comprehension Systems

Robin Jia, Percy Liang|arXiv (Cornell University)|Jul 23, 2017
Topic Modeling参考文献 30被引用 262
一句话总结

本文通过在段落中追加干扰句子,对SQuAD进行对抗性评估,显示16个模型的F1从约75降至约36(在不合语法的干扰句存在时降至约7),揭示真实语言理解能力的有限性。

ABSTRACT

Standard accuracy metrics indicate that reading comprehension systems are making rapid progress, but the extent to which these systems truly understand language remains unclear. To reward systems with real language understanding abilities, we propose an adversarial evaluation scheme for the Stanford Question Answering Dataset (SQuAD). Our method tests whether systems can answer questions about paragraphs that contain adversarially inserted sentences, which are automatically generated to distract computer systems without changing the correct answer or misleading humans. In this adversarial setting, the accuracy of sixteen published models drops from an average of $75\%$ F1 score to $36\%$; when the adversary is allowed to add ungrammatical sequences of words, average accuracy on four models decreases further to $7\%$. We hope our insights will motivate the development of new models that understand language more precisely.

研究动机与目标

  • 评估SQuAD模型是否依赖于表面的模式而非真正的语言理解。
  • 开发在保持正确答案的情况下令模型困惑的对抗性方法。
  • 量化多种模型对对抗性插入句子的鲁棒性。
  • 提供公开代码与数据,以实现标准化的对抗性评估。

提出的方法

  • 定义将(p, q, a)转换为(p', q', a')的对抗性框架A,并添加兼容但具有误导性的新增项。
  • 创建串联式对抗者AddSent和AddOneSent,将句子追加到段落中。
  • 设计AddAny(以及AddCommon)通过搜索策略插入任意句子或常用词句子。
  • 通过语义扰动和类型匹配的伪答案自动生成干扰句子,再进行 crowdsourcing 的语法纠正。
  • 在多种体系结构(BiDAF、Match-LSTM 等)上对标准输入与对抗性输入进行模型评估。
  • 提供可重复运行的代码和数据,以在SQuAD系统上运行AddSent/AddAny。

实验结果

研究问题

  • RQ1当前的阅读理解模型是否表现出真正的语言理解,还是依赖于表层线索?
  • RQ2对不与正确答案矛盾的对抗性插入句子,模型的鲁棒性如何?
  • RQ3对抗性漏洞在不同模型与架构之间是否具有可迁移性?
  • RQ4在对抗性样本上培训是否能提升鲁棒性,在何种条件下有效?

主要发现

ModelOriginal (F1)AddSent (F1)AddOneSent (F1)AddAny (F1)AddCommon (F1)
Match Single71.427.339.07.638.9
Match Ensemble75.429.441.811.751.0
BiDAF Single75.534.345.74.841.7
BiDAF Ensemble80.034.246.92.752.6
  • 对抗性扰动会显著降低模型性能:平均F1从约75%下降到≈36%(使用AddSent),在不合语法的AddAny类型输入下下降至≈7%。
  • 所有评估的16个模型都容易受到攻击;某些对抗性示例在模型之间具有可迁移性,尤其是AddSent。
  • 与模型相比,人类在AddSent上的鲁棒性显著更高(AddOneSent显示人类下降较小)。
  • 在对抗性数据上的训练提供的鲁棒性提升有限,且对改动后的对抗者(AddSentMod)的转移性通常较差。
  • 对抗性示例往往使模型在许多失败案例中预测落在对抗性句子中抽取的片段,表明对语义改变性编辑过度稳定。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。