Skip to main content
QUICK REVIEW

[论文解读] Updates-Leak: Data Set Inference and Reconstruction Attacks in Online Learning

Ahmed Salem, Apratim Bhattacharya|arXiv (Cornell University)|Apr 1, 2019
Adversarial Robustness in Machine Learning被引用 89
一句话总结

论文表明在更新前后黑箱模型输出的差异会泄露关于更新数据的信息,提出四种编码器-解码器攻击以推断或重构更新集合。

ABSTRACT

Machine learning (ML) has progressed rapidly during the past decade and the major factor that drives such development is the unprecedented large-scale data. As data generation is a continuous process, this leads to ML model owners updating their models frequently with newly-collected data in an online learning scenario. In consequence, if an ML model is queried with the same set of data samples at two different points in time, it will provide different results. In this paper, we investigate whether the change in the output of a black-box ML model before and after being updated can leak information of the dataset used to perform the update, namely the updating set. This constitutes a new attack surface against black-box ML models and such information leakage may compromise the intellectual property and data privacy of the ML model owner. We propose four attacks following an encoder-decoder formulation, which allows inferring diverse information of the updating set. Our new attacks are facilitated by state-of-the-art deep learning techniques. In particular, we propose a hybrid generative model (CBM-GAN) that is based on generative adversarial networks (GANs) but includes a reconstructive loss that allows reconstructing accurate samples. Our experiments show that the proposed attacks achieve strong performance.

研究动机与目标

  • 动机化并在黑盒访问下形式化在线学习中的更新集合泄漏风险。
  • 提出四种攻击,通过后验差分来推断属性或重构更新数据。
  • 开发编码器-解码器架构,以利用后验差异获取更新集合的不同信息。

提出的方法

  • 将后验差分作为输入,形式化一般的编码器-解码器攻击流程。
  • 采用影子模型方法生成用于训练攻击的真实标签数据。
  • 单样本攻击包括标签推断和样本重构。
  • 多样本攻击包括标签分布估计和更新集合的重构。
  • 引入 CBM-GAN、一个条件化的最优多样本生成对抗网络,用于重构多个更新样本。
  • 在 MNIST、CIFAR-10 和 Insta-NY 上使用包含 100 个样本的探测集评估攻击。

实验结果

研究问题

  • RQ1更新后目标模型输出的差异能否泄露更新集合的信息?
  • RQ2黑盒攻击者在编码器-解码器设置下推断标签或从更新集合重构数据的效果如何?
  • RQ3单样本与多样本更新集合的泄漏程度有多大?
  • RQ4影子模型是否能在黑盒约束下实现对攻击模型的逼真训练?
  • RQ5高级生成模型能在多大程度上基于后验差异重构更新集合?

主要发现

  • 单样本标签推断攻击在 Insta-NY 上达到 0.97 的准确率,在 CIFAR-10 上达到 0.96,在 MNIST 上达到 0.68。
  • 单样本重构攻击优于随机基线,在 MNIST/CIFAR-10 上接近自编码器的性能。
  • 多样本标签分布估计攻击降低了 KL 散度并在各数据集上相对于随机基线提升准确性。
  • CBM-GAN 使得基于后验差分条件生成更新集合的多个样本成为可能,在 MNIST、CIFAR-10 和 Insta-NY 上均优于基线。
  • 在影子模型训练和带有 100 样本更新集的探测下攻击仍然有效;探索了一些迁移放松。
  • 该框架表明模型输出差异可以泄露大量更新集合信息。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。