[论文解读] Comprehensive Privacy Analysis of Deep Learning: Stand-alone and Federated Learning under Passive and Active White-box Inference Attacks.
本文在独立学习和联邦学习设置下,对深度学习模型的白盒成员推理攻击进行了全面分析。通过利用随机梯度下降过程中的梯度和参数更新,作者设计了新型攻击方法,即使在泛化性能良好的模型中也能揭示训练数据的成员身份,展示了在最先进的CIFAR模型和联邦学习系统中存在显著的隐私泄露风险。
Deep neural networks are susceptible to various inference attacks as they remember information about their training data. We perform a comprehensive analysis of white-box privacy inference attacks on deep learning models. We measure the privacy leakage by leveraging the final model parameters as well as the parameter updates during the training and fine-tuning processes. We design the attacks in the stand-alone and federated settings, with respect to passive and active inference attackers, and assuming different adversary prior knowledge. We design and evaluate our novel white-box membership inference attacks against deep learning algorithms to measure their training data membership leakage. We show that a straightforward extension of the known black-box attacks to the white-box setting (through analyzing the outputs of activation functions) is ineffective. We therefore design new algorithms tailored to the white-box setting by exploiting the privacy vulnerabilities of the stochastic gradient descent algorithm, widely used to train deep neural networks. We show that even well-generalized models are significantly susceptible to white-box membership inference attacks, by analyzing state-of-the-art pre-trained and publicly available models for the CIFAR dataset. We also show how adversarial participants of a federated learning setting can run active membership inference attacks against other participants, even when the global model achieves high prediction accuracies.
研究动机与目标
- 通过分析模型参数和梯度更新,研究深度学习模型中的隐私泄露问题。
- 设计针对随机梯度下降训练过程的新型白盒成员推理攻击,克服黑盒扩展方法的局限性。
- 在被动和主动攻击者模型下,评估这些攻击在独立学习和联邦学习设置下的有效性。
- 评估在高准确率下仍具泛化能力的模型——尤其是CIFAR数据集上的模型——对成员推理攻击的脆弱性。
- 展示联邦学习中恶意参与者如何在全局模型表现良好的情况下,对其他参与者的数据发动主动成员推理攻击。
提出的方法
- 通过分析随机梯度下降训练过程中的梯度和参数更新,设计白盒成员推理攻击。
- 将攻击方法扩展至独立学习和联邦学习设置,建模具有不同先验知识的被动和主动攻击者。
- 使用最终模型参数和中间权重更新作为推理信号,判断样本是否属于训练集。
- 开发利用SGD统计特性的攻击算法,表明基于输出的黑盒扩展方法在白盒环境中无效。
- 在CIFAR-10和CIFAR-100的最先进预训练模型上评估攻击效果,测量成员推理的成功率。
- 在联邦学习中模拟主动攻击,其中恶意客户端通过操纵梯度来推断其他客户端数据的成员身份。
实验结果
研究问题
- RQ1在利用梯度和参数更新的情况下,白盒成员推理攻击在独立学习的深度学习模型中有多有效?
- RQ2为何标准的黑盒攻击扩展方法在白盒环境中失效,以及SGD训练动态中涌现出了哪些新型攻击向量?
- RQ3泛化性能良好的深度学习模型在多大程度上仍会泄露其训练数据的成员信息?
- RQ4在全局模型达到高准确率的情况下,恶意参与者是否仍能在联邦学习中发动主动成员推理攻击?
- RQ5在独立学习和联邦学习设置下,不同模型架构和数据集的隐私泄露程度如何变化?
主要发现
- 基于梯度和参数更新分析的白盒成员推理攻击显著优于仅依赖激活输出的黑盒扩展方法。
- 即使在CIFAR-10和CIFAR-100上训练的泛化性能良好的模型,在所提出的白盒攻击下仍表现出极高的成员推理成功率。
- 所提出的攻击表明,隐私泄露不仅存在于最终模型权重中,也通过中间训练动态发生,尤其是在基于SGD的优化过程中。
- 在联邦学习中,恶意参与者可对其他客户端的数据发动主动成员推理攻击,即使全局模型保持高准确率,隐私仍遭破坏。
- 结果表明,标准的模型泛化性并不能保证隐私安全,因为通过白盒技术仍可推断出训练数据的成员身份。
- 本研究揭示,当前基于模型准确率或泛化能力的防御措施可能不足以防范复杂的白盒成员推理攻击。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。