[论文解读] A framework for the extraction of Deep Neural Networks by leveraging public data
本文提出一种实用的 DNN 模型提取框架,使用通用的 thief 数据集和主动学习,在有限的查询预算内近似秘密的 MLaaS 模型。
Machine learning models trained on confidential datasets are increasingly being deployed for profit. Machine Learning as a Service (MLaaS) has made such models easily accessible to end-users. Prior work has developed model extraction attacks, in which an adversary extracts an approximation of MLaaS models by making black-box queries to it. However, none of these works is able to satisfy all the three essential criteria for practical model extraction: (1) the ability to work on deep learning models, (2) the non-requirement of domain knowledge and (3) the ability to work with a limited query budget. We design a model extraction framework that makes use of active learning and large public datasets to satisfy them. We demonstrate that it is possible to use this framework to steal deep classifiers trained on a variety of datasets from image and text domains. By querying a model via black-box access for its top prediction, our framework improves performance on an average over a uniform noise baseline by 4.70x for image tasks and 2.11x for text tasks respectively, while using only 30% (30,000 samples) of the public dataset at its disposal.
研究动机与目标
- 激发对 MLaaS 的模型隐私担忧,以及为何实际提取对秘密 DNNs 构成威胁。
- 提出一个框架,利用通用公开数据集作为 thief 数据并结合主动学习来构建替代模型。
- 证明该框架在有限查询下可在图像和文本领域提取 DNN。
- 引入集成主动学习策略以提升提取性能。
提出的方法
- 为图像和文本定义通用 thief 数据集(例如用于视觉的 ImageNet、用于 NLP 的 WikiText)。
- 使用基于池的主动学习从 thief 数据集中选择信息丰富的样本以查询秘密模型。
- 在从查询的 thief 数据中获得的带标签样本上训练替代模型,并通过额外查询进行迭代式细化。
- 采用子集选择策略(Random、Uncertainty、k-center、Adversarial、DFAL)在预算内最大化信息增益。
- 提出一个集成 Adversarial+-kcenter 策略,将不确定性、多样性和边界聚焦采样结合起来。
- 通过在测试集上评估 secret 和 substitute 模型之间的一致性来评估提取。
实验结果
研究问题
- RQ1在没有领域知识的情况下,通用 thief 数据集是否能够实现深度神经网络的提取?
- RQ2主动学习如何影响达成与秘密模型高度一致所需的查询次数?
- RQ3在图像和文本任务的模型提取中,通用 thief 数据集是否优于均匀噪声?
- RQ4不同子集选择策略对提取性能有何影响?
- RQ5集成策略是否在提取性能上优于单独的主动学习策略?
主要发现
- 该框架在 30K 查询预算下的平均结果相比均匀噪声基线,在图像上提高了 4.70x,在文本上提高了 2.11x。
- 通用 thief 数据集在视觉和自然语言处理任务中有效替代领域特定数据。
- 集成 Adversarial+-kcenter 策略通过结合边界聚焦和多样性抽样来提升提取性能。
- 主动学习策略在显著降低查询需求的同时,仍在多个数据集上保持较高的一致性。
- 对于图像任务,30K 查询下的一致性在各策略之间变化,full-thief-data 和 uniform-noise 基线提供上下文(例如 full thief data 在 MNIST 变体上的一致性为 98.81%)。
- 该方法在现实查询预算下展示了 DNN 提取的实际可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。