QUICK REVIEW

[论文解读] Dancing in the dark : private multi-party machine learning in an untrusted setting

Clement Fung|arXiv (Cornell University)|Jan 1, 2018

Privacy-Preserving Technologies in Data参考文献 46被引用 5

一句话总结

该论文提出 TorMentor，一种私有的多方机器学习系统，使数据源能够在不信任中心服务器的情况下参与全局模型训练，通过差分隐私和 Tor 网络的匿名通信实现。系统在 200 个客户端、每个客户端 14 MB 数据的情况下，实现逻辑回归模型 65 秒的训练时间，同时提供可调节的隐私-准确率权衡。

ABSTRACT

The problem of machine learning (ML) over distributed data sources arises in a variety of domains. Unfortunately, today's distributed ML systems use an unsophisticated threat model: data sources must trust a central ML process. We propose a brokered learning abstraction that provides data sources with provable privacy guarantees while allowing them to contribute data towards a globally-learned model in an untrusted setting. We realize this abstraction by building on the state of the art in multi-party distributed ML and differential privacy methods to construct TorMentor, a system that is deployed as a hidden service over an anonymous communication protocol. We define a new threat model by characterizing, developing and evaluating new attacks in the brokered learning setting, along with effective defenses for these attacks. We show that TorMentor effectively protects data sources against known ML attacks while providing them with a tunable trade-off between model accuracy and privacy. We evaluate TorMentor with local and geo-distributed deployments on Azure. In an experiment with 200 clients and 14 megabytes of data per client our prototype trained a logistic regression model using stochastic gradient descent in 65 seconds.

研究动机与目标

解决现有分布式机器学习系统中缺乏隐私保障的问题，这些系统要求数据源信任中心化的模型训练方。
设计一种代理学习抽象机制，确保在不可信环境中数据源的可证明隐私保护。
开发并评估针对代理学习威胁模型的新攻击与防御方法。
实现并部署一个系统（TorMentor），支持私有、可扩展且高效的多方学习。

提出的方法

基于多方分布式机器学习与差分隐私，TorMentor 实现客户端更新的安全聚合，而无需暴露个体数据。
将系统作为 Tor 网络上的隐藏服务进行部署，以确保数据源和学习代理的匿名性。
集成差分隐私机制，在模型更新中注入校准后的噪声，确保单个数据点保持私密。
设计一种新型威胁模型，捕捉代理学习中的现实攻击，包括模型反演和成员推断攻击。
使用随机梯度下降（SGD）实现跨分布式客户端的高效全局模型训练，通信开销最小化。
调节隐私参数（如噪声尺度），以提供模型准确率与差分隐私保障之间的可配置权衡。

实验结果

研究问题

RQ1在代理学习环境中，当数据源在不信任中心聚合方的情况下贡献模型时，会出现哪些新型威胁？
RQ2如何有效将差分隐私集成到分布式机器学习系统中，以保护不可信环境下的数据源？
RQ3在真实部署中，将匿名通信（Tor）与私有机器学习训练结合时，性能开销如何？
RQ4系统如何在多样化客户端数据分布下，同时保持模型准确率与强隐私保障？
RQ5系统能否在保持隐私与效率的前提下，扩展至数百个客户端？

主要发现

TorMentor 在 200 个客户端、每个客户端贡献 14 MB 数据的情况下，65 秒内完成逻辑回归模型训练，证明了在地理分布部署中的高效性。
系统通过差分隐私提供可证明的隐私保障，且在模型准确率与隐私损失之间提供可调节的权衡。
作者识别并评估了针对代理学习模型的新攻击，包括对模型更新的推断攻击，并设计了有效的防御措施。
在 Azure 上的部署结果表明，TorMentor 在本地和分布式环境中均保持低延迟与高可扩展性。
Tor 与差分隐私的集成未显著降低模型性能，验证了在不可信环境中实现私有多方学习的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。