[论文解读] Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models
本文提出了对抗性GLUE(AdvGLUE),这是一个通过将14种文本对抗攻击方法应用于GLUE任务而生成的高质量、多任务基准,且经过人工验证标注。主要贡献在于发现大多数现有攻击会产生语义失真的样本,且即使鲁棒模型在AdvGLUE上的表现也较差,揭示了当前先进语言模型在鲁棒性方面存在关键漏洞。
Large-scale pre-trained language models have achieved tremendous success across a wide range of natural language understanding (NLU) tasks, even surpassing human performance. However, recent studies reveal that the robustness of these models can be challenged by carefully crafted textual adversarial examples. While several individual datasets have been proposed to evaluate model robustness, a principled and comprehensive benchmark is still missing. In this paper, we present Adversarial GLUE (AdvGLUE), a new multi-task benchmark to quantitatively and thoroughly explore and evaluate the vulnerabilities of modern large-scale language models under various types of adversarial attacks. In particular, we systematically apply 14 textual adversarial attack methods to GLUE tasks to construct AdvGLUE, which is further validated by humans for reliable annotations. Our findings are summarized as follows. (i) Most existing adversarial attack algorithms are prone to generating invalid or ambiguous adversarial examples, with around 90% of them either changing the original semantic meanings or misleading human annotators as well. Therefore, we perform a careful filtering process to curate a high-quality benchmark. (ii) All the language models and robust training methods we tested perform poorly on AdvGLUE, with scores lagging far behind the benign accuracy. We hope our work will motivate the development of new adversarial attacks that are more stealthy and semantic-preserving, as well as new robust language models against sophisticated adversarial attacks. AdvGLUE is available at https://adversarialglue.github.io.
研究动机与目标
- 为解决当前缺乏针对大规模语言模型在文本对抗攻击下鲁棒性评估的系统性、全面性基准的问题。
- 系统性地将14种对抗攻击方法应用于GLUE任务,以生成多样且具代表性的基准。
- 通过人工评估筛选对抗样本,确保语义保真度,避免误导或无效样本。
- 揭示当前语言模型及鲁棒训练方法在真实、高质量对抗样本下的脆弱性。
- 推动开发更具隐蔽性、语义保持型的对抗攻击方法,以及更鲁棒的语言模型。
提出的方法
- 将14种不同的文本对抗攻击方法应用于GLUE基准的所有任务,以生成对抗样本。
- 实施严格的过滤流程,移除由人工标注者判断为语义改变或模糊的对抗样本。
- 通过人工标注验证最终的对抗样本,确保其为高质量、可靠且有意义的扰动。
- 构建一个多任务基准(AdvGLUE),保留GLUE的原始任务分布和评估协议。
- 在AdvGLUE上评估多个预训练及经过鲁棒微调的语言模型,以衡量其在对抗条件下的性能下降。
- 利用人工评估来衡量对抗样本与原始样本的语义相似性,以及其误导标注者的潜在能力。
实验结果
研究问题
- RQ1现有对抗攻击方法在多大程度上生成了保留原始语义且不会误导人类的对抗样本?
- RQ2最先进的语言模型在高质量、经人工验证的对抗性基准上表现如何,相较于其在标准GLUE任务上的表现?
- RQ3在不同模型架构和鲁棒训练方法下,AdvGLUE上的良性准确率与鲁棒性之间的差距有多大?
- RQ4语义扰动如何影响模型性能,这揭示了当前模型的哪些脆弱性?
- RQ5像AdvGLUE这样的多任务、经人工验证的基准,能否作为评估和提升模型鲁棒性的可靠标准?
主要发现
- 约90%的现有攻击方法生成的对抗样本改变了原始语义含义或误导人工标注者,表明当前攻击方法质量较差。
- 经过人工筛选后,最终的AdvGLUE基准仅包含高质量、语义忠实的对抗样本,确保了评估的可靠性。
- 所有评估的语言模型,包括经过鲁棒训练微调的模型,在AdvGLUE上的表现均显著低于其在良性GLUE任务中的准确率。
- AdvGLUE上的性能差距显著,表明当前的鲁棒性方法在面对精心设计的、语义保持型对抗样本时仍显不足。
- 研究结果凸显了对更隐蔽、语义保持型新对抗攻击方法,以及改进的鲁棒训练策略的迫切需求。
- AdvGLUE已公开发布于 https://adversarialglue.github.io,以支持未来在模型鲁棒性方面的研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。