QUICK REVIEW

[论文解读] Learning Differentially Private Recurrent Language Models

H. Brendan McMahan, Daniel Ramage|arXiv (Cornell University)|Oct 18, 2017

Privacy-Preserving Technologies in Data被引用 670

一句话总结

作者使用带有用户层差分隐私的噪声化联邦平均（noised Federated Averaging）方法和 Moments Accountant 来训练大型 LSTM 语言模型，在显著的计算成本下达到与非私有模型相近的准确度，且隐私在数据集增大时有所提升。

ABSTRACT

We demonstrate that it is possible to train large recurrent language models with user-level differential privacy guarantees with only a negligible cost in predictive accuracy. Our work builds on recent advances in the training of deep networks on user-partitioned data and privacy accounting for stochastic gradient descent. In particular, we add user-level privacy protection to the federated averaging algorithm, which makes "large step" updates from user-level data. Our work demonstrates that given a dataset with a sufficiently large number of users (a requirement easily met by even small internet-scale datasets), achieving differential privacy comes at the cost of increased computation, rather than in decreased utility as in most prior work. We find that our private LSTM language models are quantitatively and qualitatively similar to un-noised models when trained on a large dataset.

研究动机与目标

为循环语言模型提供强的用户层差分隐私保证。
在用户层实现带噪声和裁剪的联邦平均以实现 DP。
证明私有 LSTM 在大型数据集上可以达到与非私有模型相当的性能。
为私有训练复杂模型的参数调优提供实用指导。

提出的方法

对模型训练应用用户邻近的差分隐私。
引入带随机用户抽样、按用户更新裁剪和高斯噪声的带噪声版本的 Federated Averaging（DP-FedAvg）。
在聚合阶段使用两种有界灵敏度的加权均值估计（tilde{f}_f 和 tilde{f}_c）。
在聚合前对每位用户的更新进行裁剪以约束 L2 范数。
添加按估计灵敏度放缩的高斯噪声，并使用 Moments Accountant 来界定隐私损失。
利用采样放大在大数据集上获得更紧的 DP 保证。

实验结果

研究问题

RQ1在不显著降低效用的前提下，是否可以在训练大型递归语言模型时实际应用用户层差分隐私？
RQ2在不同裁剪和噪声设置下，DP-FedAvg 在准确度与隐私权衡方面的表现如何？
RQ3数据集规模对可实现的隐私保证和模型效用有何影响？
RQ4在私有训练 LSTMs 的裁剪下界和噪声方面，能给出哪些实用的参数调优准则？

主要发现

私有 LSTM 语言模型在大数据集上可以在强用户层 DP 下达到接近非私有的准确度。
在包含 763,430 名用户的数据集上，非私有训练在 4120 轮达到 17.5% 的准确度，而带 (4.6, 1e-9) DP 的私有训练在 4980 轮（每轮处理约 5000 用户）达到相近的准确度，成本约为 ~60 倍的计算成本。
将数据集规模扩大到约 1e8 用户，可以在相同框架下将隐私提升为 (1.2, 1e-9)，同时保持相似的效用。
DP-FedAvg 使在差分隐私下训练复杂模型（嵌入 + 稠密状态转移）成为可能，尽管需要较高的计算成本而不显著降低效用。
经验结果为参数调优提供了指南，表明一旦数据集足够大，隐私成本更多来自计算而非效用损失。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。