[论文解读] DAWN: Dynamic Adversarial Watermarking of Neural Networks
DAWN 在模型的预测 API 中嵌入动态、面向客户端的水印,以遏制模型提取攻击,实现对所有权的可验证且几乎不损失效用。
Training machine learning (ML) models is expensive in terms of computational power, amounts of labeled data and human expertise. Thus, ML models constitute intellectual property (IP) and business value for their owners. Embedding digital watermarks during model training allows a model owner to later identify their models in case of theft or misuse. However, model functionality can also be stolen via model extraction, where an adversary trains a surrogate model using results returned from a prediction API of the original model. Recent work has shown that model extraction is a realistic threat. Existing watermarking schemes are ineffective against IP theft via model extraction since it is the adversary who trains the surrogate model. In this paper, we introduce DAWN (Dynamic Adversarial Watermarking of Neural Networks), the first approach to use watermarking to deter model extraction IP theft. Unlike prior watermarking schemes, DAWN does not impose changes to the training process but it operates at the prediction API of the protected model, by dynamically changing the responses for a small subset of queries (e.g., <0.5%) from API clients. This set is a watermark that will be embedded in case a client uses its queries to train a surrogate model. We show that DAWN is resilient against two state-of-the-art model extraction attacks, effectively watermarking all extracted surrogate models, allowing model owners to reliably demonstrate ownership (with confidence $>1- 2^{-64}$), incurring negligible loss of prediction accuracy (0.03-0.5%).
研究动机与目标
- 促使对机器学习模型的知识产权保护,并通过预测 API 威慑模型提取。
- 引入一个在 API 查询期间运行的动态对抗水印机制。
- 确保水印对客户端特定、难以移除,并且可与查询客户端相关联。
提出的方法
- 水印生成使用加密哈希(HMAC-SHA256)来决定哪些输入被水印,以及返回的错误标签。
- 水印是一种后门;触发集 T_A 由 API 查询的一个分数 r_w 构成,其中 F_V 的响应被替换为 B_V(x)。
- 后门函数 B_V 是原始预测概率的带密钥置换,确保水印输出类似于合法预测。
- 通过将输入映射到表示 M_V(x) 以稳定 W_V 和 B_V,使不可区分性在对小的输入扰动下保持。
- 验证计算触发集输入中代理模型 F_A 的输出与水印标签不同的比例,使用一个概率阈值 e 来宣布所有权。
- 所有权的演示使用可信裁判和公共账本来公开承诺并验证代理关系。
实验结果
研究问题
- RQ1DAWN 是否能在不显著降低原模型效用的情况下,可靠地为模型提取产生的所有替代模型进行水印?
- RQ2水印是否对对抗性操纵和最前沿的提取攻击具有鲁棒性?
- RQ3所有权是否能与特定的 API 客户端绑定,并通过可信过程可验证地演示?
主要发现
- DAWN 以大于 1 − 2^(-64) 的置信度实现所有权演示。
- 水印对受保护模型造成的精度损失极小,为 0.03% 至 0.5%。
- 水印是客户端特定的且可与查询 API 客户端关联。
- DAWN 对两种最先进的模型提取攻击具有弹性。
- 该方法不需要改变受保护模型的训练过程,并在预测 API 级别运行。
- 在多种模型和数据集上的实验表明对对抗性操纵和规避具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。