[论文解读] Fast Gradient Projection Method for Text Adversary Generation and Adversarial Training
本文提出快速梯度投影法(FGPM),一种基于同义词替换的文本对抗攻击方法,其速度比以往方法快约20倍,同时保持相当的攻击成功率。通过将FGPM集成到对抗训练中,作者开发了ATFL——一种增强模型鲁棒性并降低对抗可迁移性的防御方法。
Adversarial training is the most empirically successful approach in improving the robustness of deep neural networks for image classification.For text classification, however, existing synonym substitution based adversarial attacks are effective but not efficient to be incorporated into practical text adversarial training. Gradient-based attacks, which are very efficient for images, are hard to be implemented for synonym substitution based text attacks due to the lexical, grammatical and semantic constraints and the discrete text input space. Thereby, we propose a fast text adversarial attack method called Fast Gradient Projection Method (FGPM) based on synonym substitution, which is about 20 times faster than existing text attack methods and could achieve similar attack performance. We then incorporate FGPM with adversarial training and propose a text defense method called Adversarial Training with FGPM enhanced by Logit pairing (ATFL). Experiments show that ATFL could significantly improve the model robustness and block the transferability of adversarial examples.
研究动机与目标
- 解决现有基于同义词替换的文本对抗攻击在对抗训练中的低效问题。
- 开发一种基于梯度的方法,以在离散文本空间中尊重词汇、语法和语义约束。
- 实现文本分类模型的快速且有效的对抗训练。
- 降低对抗样本在不同模型间的可迁移性。
提出的方法
- 提出快速梯度投影法(FGPM),一种基于梯度的攻击方法,在进行同义词替换时尊重文本约束。
- 使用投影步骤确保每个词的替换保持语法正确性和语义相似性。
- 将FGPM集成到对抗训练中,以在模型优化过程中生成对抗样本。
- 通过logit配对增强对抗训练,以稳定学习过程并提升鲁棒性。
- 采用快速迭代优化方案,相比以往方法显著加速收敛。
- 利用模型损失函数的梯度信息,指导离散文本空间中的高效词替换。
实验结果
研究问题
- RQ1能否高效地将基于梯度的方法适配到具有词汇和语法约束的离散文本输入空间?
- RQ2与现有基于同义词替换的文本攻击方法相比,FGPM在速度和攻击成功率方面表现如何?
- RQ3将FGPM集成到对抗训练中在多大程度上提升了模型的鲁棒性?
- RQ4所提出的ATFL防御方法是否降低了对抗样本在不同模型间的可迁移性?
主要发现
- 与现有基于同义词替换的方法相比,FGPM的攻击生成速度提高了约20倍。
- FGPM在攻击性能上与当前最先进的文本对抗攻击方法相当。
- 所提出的ATFL防御方法在基准文本分类数据集上显著提升了模型鲁棒性。
- ATFL有效降低了对抗样本在不同模型间的可迁移性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。