Skip to main content
QUICK REVIEW

[论文解读] Adversarial Reprogramming of Sequence Classification Neural Networks.

Paarth Neekhara, Shehzeen Hussain|arXiv (Cornell University)|Sep 6, 2018
Adversarial Robustness in Machine Learning被引用 5
一句话总结

本文提出一种基于上下文的词汇映射模型,以对抗性方式重新编程预训练的序列分类网络(如LSTM、BiLSTM和CNN),使其适用于新的文本分类任务,而无需修改原始模型。通过在白盒和黑盒设置下学习离散输入变换,该方法成功地在目标任务上实现高准确率,证明了在自然语言等离散输入空间中的可行性。

ABSTRACT

Adversarial Reprogramming has demonstrated success in utilizing pre-trained neural network classifiers for alternative classification tasks without modification to the original network. An adversary in such an attack scenario trains an additive contribution to the inputs to repurpose the neural network for the new classification task. While this reprogramming approach works for neural networks with a continuous input space such as that of images, it is not directly applicable to neural networks trained for tasks such as text classification, where the input space is discrete. Repurposing such classification networks would require the attacker to learn an adversarial program that maps inputs from one discrete space to the other. In this work, we introduce a context-based vocabulary remapping model to reprogram neural networks trained on a specific sequence classification task, for a new sequence classification task desired by the adversary. We propose training procedures for this adversarial program in both white-box and black-box settings. We demonstrate the application of our model by adversarially repurposing various text-classification models including LSTM, bi-directional LSTM and CNN for alternate classification tasks.

研究动机与目标

  • 解决在输入空间为离散空间(如文本分类)时,重新编程神经网络以适应新序列分类任务的挑战。
  • 开发一种方法,实现在传统加性输入扰动失效的离散输入空间中的对抗性重新编程。
  • 设计一种上下文感知的词汇映射机制,将输入从一个离散空间转换到另一个离散空间,以实现任务再利用。
  • 为白盒和黑盒设置提供对抗性程序的训练流程。
  • 在包括LSTM、BiLSTM和CNN架构在内的多种序列模型上,通过实证验证该方法的有效性。

提出的方法

  • 提出一种基于上下文的词汇映射模型,学习将输入序列从源离散空间转换到目标离散空间。
  • 设计一种可微分的变换机制,根据上下文将词语或标记映射到替代表示,从而实现有效的重新编程。
  • 采用两阶段训练过程:首先,训练映射函数以使输入分布与目标任务需求对齐;其次,微调模型以最大化目标任务的准确率。
  • 通过根据对目标模型梯度或仅其预测结果的访问情况,自适应调整训练目标,支持白盒和黑盒设置。
  • 使用注意力机制或上下文感知嵌入,以在映射过程中保持语义一致性,确保转换后的输入保持语义连贯性。
  • 将映射后的输入应用于预训练分类器,从而在不重新训练原始网络的情况下,有效实现模型在新分类任务上的再利用。

实验结果

研究问题

  • RQ1对抗性重新编程能否有效扩展到文本等离散输入空间,其中加性扰动不可行?
  • RQ2如何设计一种上下文感知的词汇映射函数,以将输入从一个离散分类任务转换到另一个?
  • RQ3哪些训练策略能够实现在白盒和黑盒设置下对序列模型的成功重新编程?
  • RQ4通过该方法,预训练的序列模型(如LSTM、BiLSTM和CNN)在多大程度上可被再用于新分类任务?
  • RQ5重新编程模型的性能与在目标数据上微调的模型相比如何?

主要发现

  • 所提出的词汇映射模型在黑盒设置下仍能以高准确率成功重新编程预训练的序列分类器,以适应新的文本分类任务。
  • 该方法在目标任务上实现了具有竞争力的性能,准确率接近或达到在相同数据上微调的模型水平。
  • 上下文感知的映射保留了语义连贯性,即使在离散输入空间的约束下,也能有效传递语义信息。
  • 该方法在多种架构(包括LSTM、BiLSTM和CNN)上均有效,证明了其通用性。
  • 白盒设置的成功率高于黑盒设置,但两者在目标任务上均取得了显著性能表现。
  • 结果证实,通过结构化的词汇转换而非加性扰动,对抗性重新编程在离散序列空间中是可行的。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。