QUICK REVIEW

[论文解读] Exploring Connections Between Active Learning and Model Extraction

Varun Chandrasekaran, Kamalika Chaudhuri|arXiv (Cornell University)|Nov 5, 2018

Adversarial Robustness in Machine Learning参考文献 74被引用 24

一句话总结

本文通过将机器学习即服务（MLaaS）系统中的模型提取形式化为查询合成主动学习问题，建立了与主动学习的直接类比，证明了主动学习技术可被重新用于高效模型提取攻击。主要贡献在于表明：即使仅能获取预测输出，无需置信度等辅助信息，仍可实现高效、低查询量的攻击；同时，数据相关随机化为一种极具前景的防御方向。

ABSTRACT

Machine learning is being increasingly used by individuals, research institutions, and corporations. This has resulted in the surge of Machine Learning-as-a-Service (MLaaS) - cloud services that provide (a) tools and resources to learn the model, and (b) a user-friendly query interface to access the model. However, such MLaaS systems raise privacy concerns such as model extraction. In model extraction attacks, adversaries maliciously exploit the query interface to steal the model. More precisely, in a model extraction attack, a good approximation of a sensitive or proprietary model held by the server is extracted (i.e. learned) by a dishonest user who interacts with the server only via the query interface. This attack was introduced by Tramer et al. at the 2016 USENIX Security Symposium, where practical attacks for various models were shown. We believe that better understanding the efficacy of model extraction attacks is paramount to designing secure MLaaS systems. To that end, we take the first step by (a) formalizing model extraction and discussing possible defense strategies, and (b) drawing parallels between model extraction and established area of active learning. In particular, we show that recent advancements in the active learning domain can be used to implement powerful model extraction attacks, and investigate possible defense strategies.

研究动机与目标

将仅提供预言机（预测）访问、无置信度分数等辅助信息的MLaaS系统中的模型提取形式化。
在有限查询访问和无模型先验知识等现实约束下，研究模型提取攻击的可行性和效率。
探索模型提取与主动学习之间的联系，特别是查询合成框架，以复用现有主动学习算法构建攻击。
识别并评估针对模型提取的潜在防御策略，重点关注模型随机化。
建立理解并保护MLaaS系统免受模型盗取的基础框架。

提出的方法

将模型提取形式化为查询合成主动学习问题，攻击者作为主动学习者，旨在最小化查询次数以重建目标模型。
将主动学习中的查询合成算法（如基于不确定性的采样和基于分歧的查询）适配用于模型提取。
在半空间模型（二分类器）上实施攻击，利用基于主动学习的策略生成具有信息量的对抗性输入，以最大化每次查询的信息增益。
通过模型相似性（如真实与提取半空间之间的几何误差）和保留数据上的泛化误差来衡量攻击成功率。
评估防御策略，特别是数据相关随机化（如模型随机化），以破坏攻击者重建模型的能力。
利用主动学习中的理论边界（如标签复杂度）分析模型提取攻击的查询效率。

实验结果

研究问题

RQ1能否有效复用主动学习技术，在仅提供预测访问的MLaaS系统中实现高效模型提取？
RQ2模型提取的查询复杂度与被动学习相比如何？查询策略的选择起到何种作用？
RQ3现有主动学习算法在应用于模型提取时存在哪些局限性，特别是在泛化误差和初始数据假设方面？
RQ4数据相关随机化防御在缓解模型提取攻击方面的有效性如何？
RQ5模型提取攻击在多大程度上可扩展至非线性模型，如深度神经网络或随机森林？

主要发现

模型提取可被形式化为查询合成主动学习问题，从而可利用先进的主动学习算法最小化重建模型所需的查询次数。
理论分析表明，模型提取中的查询复杂度可从对所需精度倒数的对数级到线性级不等，与主动学习中的已知边界一致。
实验表明，基于主动学习的攻击在模型保真度方面表现优异，且所需查询次数显著少于被动方法，尤其在使用查询合成时更为明显。
真实与提取半空间之间的几何误差是模型相似性的强指标，但其与泛化误差并非始终完全相关。
数据相关随机化（如模型随机化）被识别为极具前景的防御机制，可有效破坏攻击者重建模型的能力。
本文确立了模型提取不仅可行，且在合适的查询策略下可极为高效，凸显了MLaaS系统中亟需更强防御机制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。