QUICK REVIEW

[论文解读] A View on Vulnerabilites: The Security Challenges of XAI (Academic Track)

Moustafa Alzantot, Yash Sharma|arXiv (Cornell University)|Apr 21, 2018

Adversarial Robustness in Machine Learning参考文献 23被引用 141

一句话总结

该论文提出了一种黑盒、基于种群的遗传算法，用于生成在语义和句法上与原始文本相似的对抗性自然语言样本，在情感分析任务上实现了97%的成功率，在文本蕴含任务上实现了70%的成功率。该方法保持了人类可解释性，92.3%的对抗性样本被人类判断为与原始样本语义一致，且实验表明对抗性训练无法提升模型的鲁棒性，凸显了该攻击方法的强大与多样性。

ABSTRACT

Deep neural networks (DNNs) are vulnerable to adversarial examples, perturbations to correctly classified examples which can cause the model to misclassify. In the image domain, these perturbations are often virtually indistinguishable to human perception, causing humans and state-of-the-art models to disagree. However, in the natural language domain, small perturbations are clearly perceptible, and the replacement of a single word can drastically alter the semantics of the document. Given these challenges, we use a black-box population-based optimization algorithm to generate semantically and syntactically similar adversarial examples that fool well-trained sentiment analysis and textual entailment models with success rates of 97% and 70%, respectively. We additionally demonstrate that 92.3% of the successful sentiment analysis adversarial examples are classified to their original label by 20 human annotators, and that the examples are perceptibly quite similar. Finally, we discuss an attempt to use adversarial training as a defense, but fail to yield improvement, demonstrating the strength and diversity of our adversarial examples. We hope our findings encourage researchers to pursue improving the robustness of DNNs in the natural language domain.

研究动机与目标

为解决在自然语言中生成对抗性样本的挑战，其中扰动是可感知且离散的，与图像中的情况不同。
开发一种不依赖梯度的黑盒攻击方法，从而可应用于不透明模型。
确保对抗性样本在语义和句法上保持连贯，以维持人类可解释性。
评估模型对这类攻击的鲁棒性，特别是测试对抗性训练作为防御手段的效果。
证明即使在人类感知层面相似，最先进的模型仍可被可靠地欺骗。

提出的方法

使用遗传算法进行黑盒、无梯度优化，以生成对抗性样本。
采用Perturb子程序，基于GloVe嵌入和反向拟合技术选择词语替换，以确保同义性。
通过嵌入距离接近度和上下文感知过滤，施加对语义和句法相似性的约束。
应用交叉和变异操作，使候选对抗性句子种群向更高攻击成功率演化。
设定最大词语修改限制（IMDB为20%，SNLI为25%），以控制扰动大小。
通过模型预测结果和人类对情感与相似性的评估，验证攻击成功率。

实验结果

研究问题

RQ1尽管词语级别的扰动具有离散性和可感知性，是否仍能在自然语言领域有效生成对抗性样本？
RQ2在黑盒威胁模型下，无梯度、基于种群的优化方法是否能有效生成对抗性样本？
RQ3生成的对抗性样本在人类感知和语义连贯性方面与原始样本有多相似？
RQ4对抗性训练是否能提升NLP模型对这类攻击的鲁棒性？
RQ5人类标注者在情感和语义上在多大程度上将对抗性样本视为与原始样本等价？

主要发现

在IMDB情感分析任务中，该攻击实现了97%的成功率，仅通过少量词语更改即成功翻转预测结果。
在SNLI文本蕴含任务中，攻击在70%的案例中成功，表明该方法在短语化假设句上也具有效力。
20名人类标注者中有92.3%将对抗性样本与原始样本归为相同情感类别，证实了感知上的相似性。
原始样本与对抗性样本对之间的平均相似度评分为4分制中的2.23分，表明感知差异极小。
对抗性训练未能提升鲁棒性，即使在训练集中使用了对抗性样本，模型在测试集上仍对同一攻击保持脆弱。
与贪婪基线相比，遗传算法在成功率和词语修改效率方面均显著更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。