[论文解读] Adversarial NLI: A New Benchmark for Natural Language Understanding
介绍了 ANLI,一种通过人机协同循环在三轮中构建的大规模对抗性收集的自然语言推理基准,产生更难的测试集,并在使用 ANLI 数据训练时在 SNLI 和 MNLI 上取得最先进的结果。
We introduce a new large-scale NLI benchmark dataset, collected via an iterative, adversarial human-and-model-in-the-loop procedure. We show that training models on this new dataset leads to state-of-the-art performance on a variety of popular NLI benchmarks, while posing a more difficult challenge with its new test set. Our analysis sheds light on the shortcomings of current state-of-the-art models, and shows that non-expert annotators are successful at finding their weaknesses. The data collection method can be applied in a never-ending learning scenario, becoming a moving target for NLU, rather than a static benchmark that will quickly saturate.
研究动机与目标
- 促使创建一个长期存在、更加困难的 NLI 基准,揭示现有数据集之外的模型弱点。
- 提出 HAMLET(Human-And-Model-in-the-Loop Enabled Training),以迭代方式从人类那里收集针对模型错误的对抗性样本。
- 展示在 ANLI 上训练能够提升鲁棒性并在 SNLI 与 MNLI 上达到最先进的结果。
- 分析会让当前模型上当的推理类型,并评估标注者偏见与数据集动态。
提出的方法
- 使用 HAMLET 通过三轮逐步增加难度来迭代收集 NLI 数据,在此过程中人类撰写旨在误导当前模型的假设。
- 使用多位人工验证者核实作者的正确性,确保训练集和测试集的目标标签正确。
- 在累积数据上对每一轮训练新模型(后续轮次使用集成模型),并仅从经验证的错误中生成新的测试集。
- 使用来自多样来源的更长、多句上下文(维基百科、HotpotQA、新闻、小说、法律/开放域转录等),以增加推理难度。
- 包含标注者提供的解释和每个示例的推理类型标签,以实现对模型弱点的更细粒度分析。
实验结果
研究问题
- RQ1人机协同循环数据收集是否能够创建一个不断进化、更困难的 NLI 基准,略微抗拒当前的最先进模型?
- RQ2在对抗性 ANLI 数据上的训练是否提升对标准 NLI 基准(SNLI/MNLI)和压力测试的性能与鲁棒性?
- RQ3现代 NLI 模型常见被误导的推理类型有哪些,模型的弱点在各轮之间如何演化?
- RQ4独占性测试标注者是否引入显著的风格偏差,这对泛化有何影响?
- RQ5对抗性数据是否比传统 NLI 数据在提高鲁棒性方面更具数据效率?
主要发现
- ANLI 的三轮程序产生越来越困难的测试集,随着模型变得更强,轮次中的模型错误率在下降。
- 在 ANLI 上微调的 RoBERTa 在 SNLI(92.9)和 MNLI(匹配/不匹配分别为 91.0/90.7)上达到最先进水平,超越了这些基准的先前基线。
- 在 ANLI 数据上的训练提高了对 SNLI、MNLI 和压力测试的鲁棒性,表明对抗性样本相对于标准数据具有数据效率。
- 仅凭假设的模型在 ANLI 上表现较差,尤其在后期轮次,表明确实依赖于超出表面假设线索的推理。
- 独占测试标注者与一般测试集几乎没有差异,表明对标注者风格的过拟合有限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。