Skip to main content
QUICK REVIEW

[论文解读] Entangled Watermarks as a Defense against Model Extraction

Hengrui Jia, Christopher A. Choquette-Choo|arXiv (Cornell University)|Feb 27, 2020
Adversarial Robustness in Machine Learning参考文献 54被引用 46
一句话总结

引入 Entangled Watermark Embedding (EWE),它将水印信号与任务表示纠缠在一起,使用软最近邻损失来对抗模型提取的鲁棒防护。

ABSTRACT

Machine learning involves expensive data collection and training procedures. Model owners may be concerned that valuable intellectual property can be leaked if adversaries mount model extraction attacks. As it is difficult to defend against model extraction without sacrificing significant prediction accuracy, watermarking instead leverages unused model capacity to have the model overfit to outlier input-output pairs. Such pairs are watermarks, which are not sampled from the task distribution and are only known to the defender. The defender then demonstrates knowledge of the input-output pairs to claim ownership of the model at inference. The effectiveness of watermarks remains limited because they are distinct from the task distribution and can thus be easily removed through compression or other forms of knowledge transfer. We introduce Entangled Watermarking Embeddings (EWE). Our approach encourages the model to learn features for classifying data that is sampled from the task distribution and data that encodes watermarks. An adversary attempting to remove watermarks that are entangled with legitimate data is also forced to sacrifice performance on legitimate data. Experiments on MNIST, Fashion-MNIST, CIFAR-10, and Speech Commands validate that the defender can claim model ownership with 95\% confidence with less than 100 queries to the stolen copy, at a modest cost below 0.81 percentage points on average in the defended model's performance.

研究动机与目标

  • 确定现有水印方法的局限性——水印与任务独立学习。
  • 提出 Entangled Watermark Embedding (EWE),将水印与任务表示纠缠在一起。
  • 在不同数据集上量化模型效用与水印鲁棒性之间的权衡。
  • 展示 Wassermark 在跨视觉与音频任务中的对提取和后门攻击的鲁棒性。

提出的方法

  • 使用软最近邻损失(SNNL)来测量并强制任务数据与水印数据之间的纠缠。
  • 通过选择水印分布和触发器来生成带水印的输入,然后扰动输入以优化语义分离和纠缠。
  • 使用组合损失进行训练:L = L_CE - kappa * sum_l SNNL([X_w^(l), X_cT^(l)], Y', T^(l)).
  • 在训练过程中,将标准任务数据批次与带水印的数据批次交错进行。
  • 在训练过程中调整温度调度 T^(l),以控制纠缠强度。
  • 通过假设检验评估所有权验证,并量化在提取和再训练下的水印鲁棒性。

实验结果

研究问题

  • RQ1当水印与任务流形纠缠时,水印能在模型提取中存活吗?
  • RQ2通过 SNNL 将水印与任务数据纠缠是否在更少查询下提升所有权验证?
  • RQ3EWE 对标准基准测试中的模型效用有何影响?
  • RQ4EWE 在更深的架构和多模态(视觉与音频)上的扩展性如何?

主要发现

  • EWE 提高水印鲁棒性:在提取后水印成功率高于基线,在各数据集上。
  • 使用 EWE 时,以 95% 置信度声称所有权所需的查询更少(通常取决于设置,大约 30–100 次查询)。
  • EWE 的水印成功率平均约 38.39%(范围 18.74%–60%),而基线为 0.3%–9%(平均 5.77%)。
  • 水印在验证准确率上几乎无显著下降(平均约 0.81 百分点;最大约 3 点)。
  • 纠缠提高水印数据与合法数据之间的表示相似度(更高的 CKA),并导致激活模式重叠,降低水印的易分离性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。