Skip to main content
QUICK REVIEW

[论文解读] Secure Federated Submodel Learning

Chaoyue Niu, Fan Wu|arXiv (Cornell University)|Nov 6, 2019
Privacy-Preserving Technologies in Data参考文献 91被引用 28
一句话总结

本文提出了一种安全的联邦子模型学习框架,使资源受限的客户端能够在仅训练相关模型子组件的同时保护隐私。通过集成随机响应、安全聚合、布隆过滤器以及私有集合并协议,该方案有效防止子模型位置信息泄露,实现了在真实世界淘宝数据上的电商推荐工作负载中高准确率与高可扩展性。

ABSTRACT

Federated learning was proposed with an intriguing vision of achieving collaborative machine learning among numerous clients without uploading their private data to a cloud server. However, the conventional framework requires each client to leverage the full model for learning, which can be prohibitively inefficient for resource-constrained clients and large-scale deep learning tasks. We thus propose a new framework, called federated submodel learning, where clients download only the needed parts of the full model, namely submodels, and then upload the submodel updates. Nevertheless, the "position" of a client's truly required submodel corresponds to her private data, and its disclosure to the cloud server during interactions inevitably breaks the tenet of federated learning. To integrate efficiency and privacy, we have designed a secure federated submodel learning scheme coupled with a private set union protocol as a cornerstone. Our secure scheme features the properties of randomized response, secure aggregation, and Bloom filter, and endows each client with a customized plausible deniability, in terms of local differential privacy, against the position of her desired submodel, thus protecting her private data. We further instantiated our scheme with the e-commerce recommendation scenario in Alibaba, implemented a prototype system, and extensively evaluated its performance over 30-day Taobao user data. The analysis and evaluation results demonstrate the feasibility and scalability of our scheme from model accuracy and convergency, practical communication, computation, and storage overheads, as well as manifest its remarkable advantages over the conventional federated learning framework.

研究动机与目标

  • 为解决资源受限客户端在传统联邦学习中效率低下的问题,通过支持子模型训练而非完整模型更新来提升效率。
  • 通过防止云服务器获取客户端所需子模型的真实索引集合,保护客户端隐私,因为该信息可能暴露私有数据。
  • 设计一种安全协议,确保子模型位置的本地差分隐私,同时保持模型收敛性和准确性。
  • 利用30天淘宝真实数据,在实际电商推荐场景中评估该方案的可行性和性能表现。
  • 通过基于周期的、基于分组的、匿名化或扰动的索引集合策略,缓解客户端在多轮通信中重复参与导致的隐私泄露风险。

提出的方法

  • 提出联邦子模型学习机制,客户端仅下载与其数据相关的子模型,并仅上传子模型更新,从而降低通信与计算开销。
  • 采用私有集合并协议,使服务器能够获取客户端子模型索引的并集,而无需知晓每个客户端的具体集合,从而保护隐私。
  • 引入随机响应机制,对客户端的真实子模型索引进行扰动,提供可信否认能力与本地差分隐私保护。
  • 利用布隆过滤器以高效且隐私保护的方式编码与比较子模型索引,降低通信成本。
  • 应用安全聚合技术,将多个客户端的子模型更新合并,而无需暴露个体贡献。
  • 引入基于周期的通信模型,客户端每周期仅参与一轮通信,从而限制重复索引集合并集暴露的风险。

实验结果

研究问题

  • RQ1如何在不损害模型准确率的前提下,使联邦学习对资源受限客户端更加高效?
  • RQ2当客户端在联邦子模型学习中重复参与时,会产生哪些隐私风险,又该如何缓解?
  • RQ3能否设计一种安全协议,隐藏客户端所需的真实子模型索引,从而保护其私有数据?
  • RQ4子模型选择对大规模推荐系统中收敛性、通信开销与存储开销有何影响?
  • RQ5与传统联邦学习相比,该方案在真实工业场景中的有效性如何?

主要发现

  • 所提出的联邦子模型学习方案在真实世界淘宝电商数据上实现了与传统联邦学习相当的模型准确率与收敛性。
  • 与完整模型训练相比,通信、计算与存储开销显著降低,使该方案在大规模部署中具备实际可行性。
  • 通过集成随机响应、安全聚合与布隆过滤器,有效保护了子模型位置的隐私,实现了本地差分隐私。
  • 通过采用基于周期的参与机制、分组协作、匿名化或索引集合扰动策略,有效缓解了客户端重复参与导致的隐私泄露问题。
  • 基于30天淘宝数据的评估结果证实了该方法在工业推荐系统中的可扩展性与可行性。
  • 私有集合并协议实现了子模型索引的安全聚合,而无需暴露单个客户端的数据,是本框架的关键使能技术。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。