[论文解读] Rethinking Deep Neural Network Ownership Verification: Embedding Passports to Defeat Ambiguity Attacks
本文提出一种基于护照的DNN所有权验证方案,通过在模型中嵌入数字护照以抵抗模糊攻击,其中伪造的水印会破坏所有权声明。通过将验证与预定义签名及篡改后的推理性能下降相结合,该方法能够有效抵御模型篡改和假冒声明,实验结果证实了其有效性和鲁棒性。
With substantial amount of time, resources and human (team) efforts invested to explore and develop successful deep neural networks (DNN), there emerges an urgent need to protect these inventions from being illegally copied, redistributed, or abused without respecting the intellectual properties of legitimate owners. Following recent progresses along this line, we investigate a number of watermark-based DNN ownership verification methods in the face of ambiguity attacks, which aim to cast doubts on the ownership verification by forging counterfeit watermarks. It is shown that ambiguity attacks pose serious threats to existing DNN watermarking methods. As remedies to the above-mentioned loophole, this paper proposes novel passport-based DNN ownership verification schemes which are both robust to network modifications and resilient to ambiguity attacks. The gist of embedding digital passports is to design and train DNN models in a way such that, the DNN inference performance of an original task will be significantly deteriorated due to forged passports. In other words, genuine passports are not only verified by looking for the predefined signatures, but also reasserted by the unyielding DNN model inference performances. Extensive experimental results justify the effectiveness of the proposed passport-based DNN ownership verification schemes. Code and models are available at https://github.com/kamwoh/DeepIPR
研究动机与目标
- 解决模糊攻击日益增长的威胁,此类攻击会破坏现有的基于水印的DNN所有权验证方法。
- 保护深度神经网络的知识产权,防止非法复制和分发。
- 开发一种对模型修改和伪造护照均具有鲁棒性的验证机制。
- 确保对模型进行篡改——尤其是嵌入伪造护照——会显著降低推理性能。
- 提供一种结合签名检测与基于性能的真伪重新确认的解决方案。
提出的方法
- 在训练过程中将数字护照嵌入DNN模型,设计为仅原始模型能保持完整的推理性能。
- 引入双重验证机制:检测预定义的护照签名,并验证未受损的推理准确率。
- 训练模型,使得任何尝试插入伪造护照的行为都会导致任务性能显著下降。
- 使用对抗性训练和损失函数修改,以抵抗提取和克隆的嵌入方式。
- 确保真实护照的存在不仅通过签名匹配确认,还通过模型执行原始任务的准确能力加以验证。
- 设计护照嵌入过程,使其对正常推理透明,但对未经授权的副本具有破坏性。
实验结果
研究问题
- RQ1模糊攻击如何破坏现有的基于水印的DNN所有权验证方法?
- RQ2当同时面临模型修改和伪造护照插入时,DNN所有权验证方法是否仍能保持鲁棒性?
- RQ3与原始模型相比,嵌入数字护照对篡改后模型的性能下降程度如何?
- RQ4能否将推理性能用作二级、基于性能的检查以验证护照的真实性?
- RQ5所提出的基于护照的方案在抵抗模糊攻击以及模型反演或提取尝试方面效果如何?
主要发现
- 模糊攻击对现有水印方法构成严重威胁,攻击者可伪造与合法水印相似的水印。
- 所提出的基于护照的方案通过确保仅原始模型保持完整推理性能,有效抵抗模糊攻击。
- 对模型进行篡改以插入伪造护照会导致任务准确率显著且可测量的下降。
- 双重验证机制——签名检测与性能验证——相比仅依赖签名的方法,能提供更强的真伪保证。
- 大量实验表明,该护照方法在各种网络架构和攻击场景下均表现出高度鲁棒性。
- 即使在对抗性模型修改下,该方法仍保持高验证准确率,证实其在实际部署中的抗干扰能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。