Skip to main content
QUICK REVIEW

[论文解读] T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification

Ahmadreza Azizi, Ibrahim Asadullah Tahmid|arXiv (Cornell University)|Mar 6, 2021
Adversarial Robustness in Machine Learning被引用 23
一句话总结

T-Miner 是一种生成式防御框架,通过在合成的、无意义的输入上训练序列到序列模型,探测后门触发短语,以检测基于深度神经网络的文本分类器中的后门攻击。该方法在区分后门模型与干净模型方面实现了 98.75% 的准确率,并且在无需访问训练数据的情况下,对自适应攻击、多触发器攻击和部分后门攻击均保持鲁棒性。

ABSTRACT

Deep Neural Network (DNN) classifiers are known to be vulnerable to Trojan or backdoor attacks, where the classifier is manipulated such that it misclassifies any input containing an attacker-determined Trojan trigger. Backdoors compromise a model's integrity, thereby posing a severe threat to the landscape of DNN-based classification. While multiple defenses against such attacks exist for classifiers in the image domain, there have been limited efforts to protect classifiers in the text domain. We present Trojan-Miner (T-Miner) -- a defense framework for Trojan attacks on DNN-based text classifiers. T-Miner employs a sequence-to-sequence (seq-2-seq) generative model that probes the suspicious classifier and learns to produce text sequences that are likely to contain the Trojan trigger. T-Miner then analyzes the text produced by the generative model to determine if they contain trigger phrases, and correspondingly, whether the tested classifier has a backdoor. T-Miner requires no access to the training dataset or clean inputs of the suspicious classifier, and instead uses synthetically crafted "nonsensical" text inputs to train the generative model. We extensively evaluate T-Miner on 1100 model instances spanning 3 ubiquitous DNN model architectures, 5 different classification tasks, and a variety of trigger phrases. We show that T-Miner detects Trojan and clean models with a 98.75% overall accuracy, while achieving low false positives on clean models. We also show that T-Miner is robust against a variety of targeted, advanced attacks from an adaptive attacker.

研究动机与目标

  • 为应对 DNN 基文本分类器中日益增长的隐蔽后门攻击威胁,这些攻击因序列领域防御研究有限而难以被检测。
  • 开发一种无需访问可疑模型的训练数据集或干净输入的防御机制。
  • 检测单个和复杂后门触发器,包括多触发器和源特定的局部后门,在多种文本分类任务中实现检测。
  • 确保对知晓防御流程并试图规避检测的自适应攻击者具有鲁棒性。

提出的方法

  • T-Miner 使用在合成生成的、无意义的文本输入上训练的序列到序列(seq-2-seq)生成模型,探测可疑分类器中的触发短语模式。
  • 生成模型生成可能包含后门触发短语部分的文本序列,通过异常分析检测后门行为。
  • 通过分析扰动输入上模型预测的偏差,利用对抗性扰动生成识别触发短语。
  • 采用两阶段搜索策略——贪婪搜索和 Top-K 搜索——以提高触发短语的恢复能力,尤其在初始候选被过滤时表现更优。
  • 对生成的序列应用异常检测,识别包含触发短语的序列,将具有可疑模式的模型标记为潜在后门感染。
  • 该框架在 1100 个模型实例上进行评估,涵盖 3 种架构(LSTM、Bi-LSTM、Transformer)、5 项分类任务和多种触发类型。

实验结果

研究问题

  • RQ1生成模型是否能在不访问训练数据或干净输入的情况下,有效检测文本分类模型中的后门触发短语?
  • RQ2T-Miner 在检测多种后门攻击类型(包括多触发器和部分后门攻击)方面的有效性如何?
  • RQ3T-Miner 对自适应攻击者的鲁棒性如何,这些攻击者会修改触发短语或攻击策略以规避检测?
  • RQ4T-Miner 在多种 DNN 架构和文本分类任务中的性能表现如何?
  • RQ5T-Miner 是否能在保持干净模型低误报率的同时,对后门感染模型实现高检测准确率?

主要发现

  • T-Miner 在 1100 个模型实例(包括干净模型和后门模型)上实现了总体 98.75% 的检测准确率。
  • 在使用贪婪搜索时,T-Miner 在干净模型上的准确率达到 99.09%,表明误报率极低。
  • 在多触发器攻击中,当使用 Top-K 搜索(K=5)时,T-Miner 成功检测出全部 40 个后门模型,克服了贪婪搜索的局限性。
  • 在部分后门攻击中,T-Miner 使用贪婪搜索检测出 39 个后门模型,使用 Top-K 搜索则检测出全部 40 个,表现出对源特定触发短语的强韧性。
  • T-Miner 对自适应攻击者保持鲁棒,包括使用弱攻击或隐蔽触发设计以规避标准过滤阈值的攻击者。
  • 该框架在多种任务中成功检测后门,包括情感分析、仇恨言论、虚假新闻和新闻分类,且适用于多种 DNN 架构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。