QUICK REVIEW

[论文解读] On Adversarial Examples for Character-Level Neural Machine Translation

Javid Ebrahimi, Daniel Lowd|arXiv (Cornell University)|Jun 23, 2018

Adversarial Robustness in Machine Learning参考文献 20被引用 157

一句话总结

本文提出面向字符级NMT的白盒基于梯度的对抗攻击，显示它们在无目标、受控和有目标设置下都比黑盒攻击更强，并证明对抗训练可以提升鲁棒性。

ABSTRACT

Evaluating on adversarial examples has become a standard procedure to measure robustness of deep learning models. Due to the difficulty of creating white-box adversarial examples for discrete text input, most analyses of the robustness of NLP models have been done through black-box adversarial examples. We investigate adversarial examples for character-level neural machine translation (NMT), and contrast black-box adversaries with a novel white-box adversary, which employs differentiable string-edit operations to rank adversarial changes. We propose two novel types of attacks which aim to remove or change a word in a translation, rather than simply break the NMT. We demonstrate that white-box adversarial examples are significantly stronger than their black-box counterparts in different attack scenarios, which show more serious vulnerabilities than previously known. In addition, after performing adversarial training, which takes only 3 times longer than regular training, we can improve the model's robustness significantly.

研究动机与目标

推动对字符级神经机器翻译（NMT）中最坏情况失效的研究。
使用可微文本编辑操作开发白盒对抗攻击以利用模型梯度。
提出受控和有目标的攻击类型，以操纵翻译，而不仅仅是降低BLEU。
在适度训练开销下显著提高模型鲁棒性。

提出的方法

将 HotFlip 基于梯度的框架扩展到字符级输入的更广泛文本编辑（翻转、交换、删除、插入）。
将文本编辑表示为输入空间向量，并使用一阶导数对候选更改按对损失 J(x, y) 的影响进行排序。
应用一次性贪婪/束搜索策略高效地生成对抗样本。
定义受控攻击以针对特定单词进行删除、以及有目标攻击将一个单词替换为另一个单词，使用定制的损失目标。
引入一次性对抗训练以加速鲁棒性训练，相对于标准训练，训练速度约慢3倍。
利用 TED talks 平行语料库（德语/捷克语/法语到英语），采用字符级NMT架构（字符卷积、 highway nets、RNN 解码器）并使用 BLEU 进行评估。

实验结果

研究问题

RQ1在字符级NMT中，白盒对抗攻击在无目标、受控和有目标设置下与黑盒攻击相比如何？
RQ2基于梯度的编辑是否能在不大幅改变输出其余部分的情况下有效移除或替换翻译中的特定单词？
RQ3利用白盒对手进行对抗训练是否能提升对白盒和黑盒扰动的鲁棒性？
RQ4在现实预算约束下（例如更改的字符百分比），生成对抗样本的有效策略（一次性、贪婪、束搜索）有哪些？

主要发现

白盒对手显著优于黑盒攻击者，特别是在受控和有目标场景中。
受控攻击可通过对目标单词最大化损失来使特定单词失活，有时会用 UNK 替换，成功率高于黑盒方法。
有目标攻击（第二大或更高排序的单词替换）显示较低的成功率，但对白盒方法仍显著强于黑盒方法。
使用白盒示例的对抗训练在对抗输入上提升 BLEU 鲁棒性，集成方法在多种噪声类型上提供广泛保护。
一次性攻击策略在训练时间增加约3倍的情况下实现有竞争力的鲁棒性提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。