QUICK REVIEW

[论文解读] Interpretable Adversarial Perturbation in Input Embedding Space for Text

Motoki Sato, Jun Suzuki|arXiv (Cornell University)|May 8, 2018

Adversarial Robustness in Machine Learning参考文献 24被引用 37

一句话总结

本文通过限制词嵌入空间中的扰动仅指向词汇表中已存在的词，提出了一种可解释的文本对抗训练方法，使对抗样本可直接重构为有意义的句子级词语替换。该方法在保持或提升模型性能的同时，生成人类可解释的对抗性文本和可视化结果，恢复了先前基于梯度的对抗训练方法所丧失的可解释性。

ABSTRACT

Following great success in the image processing field, the idea of adversarial training has been applied to tasks in the natural language processing (NLP) field. One promising approach directly applies adversarial training developed in the image processing field to the input word embedding space instead of the discrete input space of texts. However, this approach abandons such interpretability as generating adversarial texts to significantly improve the performance of NLP tasks. This paper restores interpretability to such methods by restricting the directions of perturbations toward the existing words in the input embedding space. As a result, we can straightforwardly reconstruct each input with perturbations to an actual text by considering the perturbations to be the replacement of words in the sentence while maintaining or even improving the task performance.

研究动机与目标

为解决自然语言处理中基于梯度的对抗训练缺乏可解释性的问题，即连续嵌入空间中的扰动难以轻易映射回真实词语。
开发一种方法，生成可解释为实际句子修改（如词语替换）的对抗样本，同时保留对抗训练的正则化优势。
通过生成人类可读的扰动，使研究人员能够分析黑箱神经网络模型，揭示模型脆弱性。

提出的方法

将输入嵌入空间中的对抗扰动限制为仅指向词汇表中已存在词语的位置。
对于句子中的每个词，计算能最大化损失且以最近似存在的词嵌入作为目标方向的扰动方向。
通过计算扰动向量在每个词嵌入向量上的投影最大值，确定最相关的词语替换。
将此约束应用于对抗训练（iAdvT-Text）和虚拟对抗训练（iVAT-Text），保持与基线方法相同的训练目标。
通过根据扰动方向将原始词语替换为嵌入空间中最接近的现有词语，重构对抗性文本。
通过选择与扰动向量余弦相似度最高的词语来可视化扰动，实现可解释的模型分析。

实验结果

研究问题

RQ1能否将输入嵌入空间中的对抗扰动限制为仅指向词汇表中已存在的词语，从而实现可解释的对抗性文本生成？
RQ2将扰动约束于现有词嵌入是否会降低模型性能，还是能够像先前方法一样保持或提升泛化能力？
RQ3由此产生的对抗样本能否有意义地重构为自然的句子修改（如词语替换），从而误导模型？
RQ4与不可解释的扰动相比，这种可解释的扰动在可视化模型行为和识别模型弱点方面表现如何？
RQ5该方法能否生成在语义上合理且能有效导致误分类的对抗性文本？

主要发现

所提方法 iAdvT-Text 在情感分类（SEC）、类别分类（CAC）和语法错误检测（GED）基准上达到最先进性能，与基线 AdvT-Text 表现相当或更优。
iAdvT-Text 通过替换词语为语义合理的替代词（如 'this' → 'that'）成功生成对抗性文本，导致模型误分类，同时保持句子语义不变。
可视化结果显示，iAdvT-Text 的扰动始终指向有意义的词语替换（如 'practise' → 'play'），而基线 AdvT-Text 产生不可解释的替换（如 '<eos>' → 'Analyze'）。
该方法保持或提升了模型泛化能力，表明可解释性并不以牺牲性能为代价，即使在对扰动方向施加强约束的情况下亦如此。
通过 iAdvT-Text 生成的对抗样本能有效欺骗模型——例如在情感分类中将 'Negative' 改为 'Positive'，同时保持语法正确和语义合理。
该方法使研究人员能够通过生成揭示模型对特定词语选择敏感性的对抗性文本，来分析黑箱模型，从而增强模型可解释性与鲁棒性分析。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。