Skip to main content
QUICK REVIEW

[论文解读] Inference Attacks Against Collaborative Learning.

Luca Melis, Congzheng Song|arXiv (Cornell University)|May 10, 2018
Adversarial Robustness in Machine Learning参考文献 66被引用 93
一句话总结

本文表明,协作学习系统容易受到推理攻击的威胁,攻击者可通过共享的模型参数或梯度,精确推断出训练数据点(成员身份推理)以及联合模型未捕捉的隐藏数据属性。这些攻击在多种任务和数据集上均表现出极高的成功率,凸显了联邦学习与分布式学习中的关键隐私风险。

ABSTRACT

Collaborative machine learning and related techniques such as distributed and federated learning allow multiple participants, each with his own training dataset, to build a joint model. Participants train local models and periodically exchange model parameters or gradient updates computed during the training. We demonstrate that the training data used by participants in collaborative learning is vulnerable to inference attacks. First, we show that an adversarial participant can infer the presence of exact data points in others' training data (i.e., membership inference). Then, we demonstrate that the adversary can infer properties that hold only for a subset of the training data and are independent of the properties that the joint model aims to capture. We evaluate the efficacy of our attacks on a variety of tasks, datasets, and learning configurations, and conclude with a discussion of possible defenses.

研究动机与目标

  • 研究协作学习系统在威胁训练数据隐私的推理攻击下的脆弱性。
  • 证明恶意参与者可通过共享的模型参数或梯度,推断出他人训练数据中确切的数据点。
  • 探究攻击者是否能推断出与主要学习目标无关的隐藏数据集特性和属性。
  • 评估这些攻击在不同机器学习任务、数据集和协作学习配置下的有效性。
  • 讨论协作学习框架中应对此类推理威胁的潜在防御措施。

提出的方法

  • 作者设计了推理攻击,通过分析协作训练过程中交换的共享模型参数或梯度更新。
  • 对于成员身份推理,攻击利用统计分析,根据模型权重或梯度的变化,判断特定数据点是否被用于某参与方的训练集。
  • 对于属性推理,攻击识别出与罕见或隐藏数据特征相关联的模型更新模式,而这些特征与主模型目标不一致。
  • 在多个数据集和学习配置上评估了这些攻击,涵盖图像分类和自然语言处理任务,采用标准的协作学习设置。
  • 该方法利用了模型更新会泄露底层训练数据信息的事实,即使数据本身未被直接共享。
  • 实验比较了在不同模型架构、数据分布和通信频率下的攻击成功率。

实验结果

研究问题

  • RQ1协作学习系统中的恶意参与者能否推断出特定数据点是否被其他参与方的训练集所使用?
  • RQ2攻击者在多大程度上能推断出与主要学习目标无关的隐藏数据集特性?
  • RQ3这些推理攻击在不同机器学习任务、数据集和协作学习配置下的有效性如何?
  • RQ4哪些因素会影响这些推理攻击在协作学习系统中的成功率?
  • RQ5这些攻击对联邦学习与分布式学习的隐私保障意味着什么?

主要发现

  • 成员身份推理攻击在多个数据集和模型类型上,均以高精度成功识别出特定数据点是否存在于其他参与方的训练数据中。
  • 属性推理攻击能够检测出与主模型目标不一致的罕见或隐藏数据特征,表明模型更新会泄露非预期的信息。
  • 即使在非独立同分布(non-IID)数据分布和不同通信间隔等现实协作学习设置下,攻击成功率依然保持较高水平。
  • 该漏洞在图像分类和自然语言处理等多样化任务中均表现一致,表明威胁具有广泛适用性。
  • 研究结果表明,由于暴露了模型参数和梯度,协作学习系统本质上易受推理攻击。
  • 该研究揭示,当前的协作学习协议未能充分保护训练数据隐私,亟需更强有力的防御机制。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。