[论文解读] Natural Perturbation for Robust Question Answering
本文提出使用由人类驱动的自然扰动——对现有问答样本进行轻微且现实的修改——作为一种低成本的方法,以提升模型的鲁棒性和泛化能力。通过扰动种子样本而非从零开始创建新样本,该方法在保持原始数据集性能的同时,实现了更高的鲁棒性,尤其当扰动成本显著低于完整数据创建时效果更佳。
While recent models have achieved human-level scores on many NLP datasets, we observe that they are considerably sensitive to small changes in input. As an alternative to the standard approach of addressing this issue by constructing training sets of completely new examples, we propose doing so via minimal perturbation of examples. Specifically, our approach involves first collecting a set of seed examples and then applying human-driven natural perturbations (as opposed to rule-based machine perturbations), which often change the gold label as well. Local perturbations have the advantage of being relatively easier (and hence cheaper) to create than writing out completely new examples. To evaluate the impact of this phenomenon, we consider a recent question-answering dataset (BoolQ) and study the benefit of our approach as a function of the perturbation cost ratio, the relative cost of perturbing an existing question vs. creating a new one from scratch. We find that when natural perturbations are moderately cheaper to create, it is more effective to train models using them: such models exhibit higher robustness and better generalization, while retaining performance on the original BoolQ dataset.
研究动机与目标
- 解决NLP模型对输入微小变化的脆弱性,且不依赖大规模数据增强。
- 探索对现有样本进行人工驱动的自然扰动,是否能比从零创建全新训练样本更高效地提升模型鲁棒性。
- 评估扰动成本与模型性能之间的权衡,尤其关注鲁棒性和泛化能力。
- 证明最小化、自然化的扰动即使改变真实标签,仍可生成有效的训练数据。
提出的方法
- 从现有问答数据集(BoolQ)中收集一组种子样本,作为扰动的基础。
- 应用人工驱动的自然扰动——即模拟真实、细微的输入变化——而非基于规则或句法的转换。
- 允许扰动改变真实标签,以反映现实世界中的分布偏移和模型鲁棒性挑战。
- 在扰动后的数据上训练问答模型,并在原始和扰动样本上评估性能。
- 比较在扰动数据与全新创建数据上训练的模型在性能和鲁棒性上的差异,同时调整扰动成本与完整数据创建成本的相对比例。
实验结果
研究问题
- RQ1与训练在全新样本上的模型相比,基于人工驱动自然扰动的模型在鲁棒性方面表现如何?
- RQ2扰动成本比率(扰动成本与创建新样本成本的相对比例)对模型性能和泛化能力有何影响?
- RQ3即使改变真实标签的扰动,是否仍能提升模型鲁棒性并保持在原始数据集上的性能?
- RQ4在何种条件下,数据扰动比完整数据创建更有效地提升模型鲁棒性?
主要发现
- 在人工驱动自然扰动数据上训练的模型,相比在标准或全新创建样本上训练的模型,对输入变化表现出更高的鲁棒性。
- 当扰动成本适度低于创建新样本的成本时,基于扰动的方法能实现更好的泛化性能。
- 该方法在保持原始BoolQ数据集高性能的同时提升了鲁棒性,即使扰动改变了真实标签也依然有效。
- 与完整数据创建相比,该方法更具成本效益,尤其当扰动现有样本的成本远低于创建新样本时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。