[论文解读] Textual Adversarial Attack as Combinatorial Optimization
本文提出了一种新颖的词级对抗攻击模型,将文本对抗攻击建模为组合优化问题。通过整合基于语义元的词替换方法与基于粒子群优化(PSO)的搜索算法,该模型在三个基准数据集上的BiLSTM和BERT模型上实现了显著更高的攻击成功率,并生成了更高质量的对抗样本,优于现有基线方法。
Adversarial attacks are carried out to reveal the vulnerability of deep neural networks. Textual adversarial attacking is challenging because text is discrete and a small perturbation can bring significant change to the original input. Word-level attacking, which can be regarded as a combinatorial optimization problem, is a well-studied class of textual attack methods. However, existing word-level attack models are far from perfect, largely because unsuitable search space reduction methods and inefficient optimization algorithms are employed. In this paper, we propose a novel attack model, which incorporates the sememe-based word substitution method and particle swarm optimization-based search algorithm to solve the two problems separately. We conduct exhaustive experiments to evaluate our attack model by attacking BiLSTM and BERT on three benchmark datasets. Experimental results demonstrate that our model consistently achieves much higher attack success rates and crafts more high-quality adversarial examples as compared to baseline methods. Also, further experiments show our model has higher transferability and can bring more robustness enhancement to victim models by adversarial training. All the code and data of this paper can be obtained on this https URL.
研究动机与目标
- 解决现有词级对抗攻击模型在搜索空间缩减方面不理想以及优化效率低下的问题。
- 通过将词级攻击建模为组合优化问题,提升对抗样本的质量与成功率。
- 增强对抗样本的迁移能力,并支持更鲁棒的受害者模型对抗训练。
- 开发一种在离散文本空间中平衡语义保持与攻击有效性的方法。
提出的方法
- 该攻击模型将词级替换视为组合优化问题,以系统性地探索离散文本空间中的扰动。
- 采用基于语义元的词替换方法,通过基于语义知识的同义词选择确保语义一致性。
- 使用基于粒子群优化(PSO)的搜索算法,高效地导航大规模且离散的词替换可能空间。
- PSO算法通过基于个体最优解与全局最优解更新粒子位置,迭代优化候选对抗样本。
- 通过语义元相似度引入语义约束,避免扰动过程中出现句法或语义退化。
- 攻击过程由损失函数引导,该损失函数平衡攻击成功与语义保持,优化由PSO驱动。
实验结果
研究问题
- RQ1组合优化框架是否能提升词级文本对抗攻击的成功率与样本质量?
- RQ2基于语义元的替换方法在多大程度上提升了对抗样本的语义一致性?
- RQ3基于PSO的搜索策略在对抗攻击性能上是否显著优于传统启发式或贪心搜索方法?
- RQ4与基线方法相比,所提出的模型在不同模型与数据集之间是否展现出更高的迁移能力?
- RQ5该模型生成的对抗样本是否可通过对抗训练提升受害者模型的鲁棒性?
主要发现
- 与基线方法相比,该模型在三个基准数据集上的BiLSTM与BERT模型上实现了显著更高的攻击成功率。
- 该模型生成的对抗样本展现出更高的语义质量,在有效欺骗深度神经网络的同时保持了原始语义。
- 该模型表现出更强的迁移能力,能够以更高成功率攻击未见过的模型,优于现有方法。
- 使用该模型生成的样本进行对抗训练,可使受害者模型更加鲁棒,表明该方法在提升模型鲁棒性方面具有实际应用价值。
- 基于语义元替换与PSO搜索的组合策略,在攻击有效性与效率方面均优于单一组件及基线攻击策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。