QUICK REVIEW

[论文解读] HotFlip: White-Box Adversarial Examples for Text Classification

Javid Ebrahimi, Anyi Rao|arXiv (Cornell University)|Dec 19, 2017

Adversarial Robustness in Machine Learning参考文献 21被引用 81

一句话总结

论文提出 HotFlip，一种基于梯度的白盒方法，通过单字符翻转生成字符级对抗文本，实现高效对抗训练以提升文本分类器的鲁棒性。

ABSTRACT

We propose an efficient method to generate white-box adversarial examples to trick a character-level neural classifier. We find that only a few manipulations are needed to greatly decrease the accuracy. Our method relies on an atomic flip operation, which swaps one token for another, based on the gradients of the one-hot input vectors. Due to efficiency of our method, we can perform adversarial training which makes the model more robust to attacks at test time. With the use of a few semantics-preserving constraints, we demonstrate that HotFlip can be adapted to attack a word-level classifier as well.

研究动机与目标

动机：研究字符级 NLP 模型在白盒对手攻击下的漏洞。
提出一种高效的梯度基方法，利用一-hot 输入表示来操纵离散文本。
证明使用 HotFlip 的对抗训练可以提升鲁棒性，并可在有约束的情况下扩展到词级分类器。

提出的方法

定义一个原子翻转操作：基于损失相对于 one-hot 输入的方向导数，将一个字符替换为另一个字符。
使用一阶（梯度）近似来估计最佳单次改动：max over (dJ/dx^(b) − dJ/dx^(a))。
扩展为一系列改动，采用贪心/束搜索，在 r 次改动和束宽 b 的情况下产生 O(br) 的前向与反向传播。
通过对改变量向量进行 L2 范数归一化，以处理翻转幅度的差异。
将插入与删除作为一系列翻转来实现；为提高效率，在对抗训练中主要使用翻转。
在必要时，证明对语义约束下的词级模型的适用性。

实验结果

研究问题

RQ1一个 differentiable 的字符级文本分类器在有目标的、基于梯度的扰动下有多脆弱？
RQ2是否可以用快速的白盒对手以少量编辑和高错分率产生现实的对抗文本？
RQ3使用 HotFlip 生成的样本进行对抗训练是否能提升对攻击的鲁棒性，并保持对清洁数据的准确性？
RQ4是否可以在保持语义约束的前提下，将 HotFlip 适配到词级模型？

主要发现

方法	其他误差	成功率
Baseline	8.27%	98.16%
Adv-tr Miyato et al. (2017)	8.03%	87.43%
Adv-tr (black-box)	8.60%	95.63%
Adv-tr (white-box)	7.65%	69.32%

在字符预算（例如占比 10% 字符）下，白盒对手以较小的编辑实现高错分。
在给定置信度约束下，使用 HotFlip 的束搜索能在测试集中超过 90% 的实例上欺骗分类器。
使用 HotFlip 进行对抗训练比嵌入噪声对抗训练或黑箱攻击在降低错分率和降低对手成功率方面更有效。
观测到的平均对抗翻转率在目标置信度 0.5 时约为 4.18%。
使用真实 HotFlip 示例进行的对抗训练在鲁棒性方面优于使用伪对抗嵌入扰动（Miyato 等，2017）。
人工评估表明 HotFlip 的对抗性编辑很少改变句子含义；人类平均准确率下降仅为温和程度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。