[论文解读] Scalable Private Learning with PATE
本论文将 Private Aggregation of Teacher Ensembles (PATE) 扩展到具有大输出空间的任务,使用高斯噪声 GNMax 和选择性聚合器(Confident-GNMax 和 Interactive-GNMax),在大规模 Glyph 任务上实现高效用并具备非常强的隐私性(ε < 1.0)。
The rapid adoption of machine learning has increased concerns about the privacy implications of machine learning models trained on sensitive data, such as medical records or other personal information. To address those concerns, one promising approach is Private Aggregation of Teacher Ensembles, or PATE, which transfers to a "student" model the knowledge of an ensemble of "teacher" models, with intuitive privacy provided by training teachers on disjoint data and strong privacy guaranteed by noisy aggregation of teachers' answers. However, PATE has so far been evaluated only on simple classification tasks like MNIST, leaving unclear its utility when applied to larger-scale learning tasks and real-world datasets. In this work, we show how PATE can scale to learning tasks with large numbers of output classes and uncurated, imbalanced training data with errors. For this, we introduce new noisy aggregation mechanisms for teacher ensembles that are more selective and add less noise, and prove their tighter differential-privacy guarantees. Our new mechanisms build on two insights: the chance of teacher consensus is increased by using more concentrated noise and, lacking consensus, no answer need be given to a student. The consensus answers used are more likely to be correct, offer better intuitive privacy, and incur lower-differential privacy cost. Our evaluation shows our mechanisms improve on the original PATE on all measures, and scale to larger tasks with both high utility and very strong privacy ($\varepsilon$ < 1.0).
研究动机与目标
- 通过将 PATE 扩展到大类别和未经过滤的数据集,解决敏感数据上机器学习的隐私问题。
- 开发并分析新的有噪声聚合机制,以提高隐私保证和效用。
- 用 Rényi 微分隐私对 GNMax 中高斯噪声进行数据依赖的隐私计量。
- 在具有不平衡和错误标注数据的大规模 Glyph 识别任务上展示其实用性。
提出的方法
- 引入 Gaussian NoisyMax (GNMax) 聚合:对教师投票计数添加高斯噪声,并选择具有最高带噪声投票的类别。
- 提供 GNMax 的数据依赖的 Rényi 微分隐私分析,以获得更紧的逐查询隐私保障。
- 开发 Confident-GNMax,通过私下检查强一致性来决定是否回答,可能跳过不确定的查询以节省隐私预算。
- 开发 Interactive-GNMax,将学生预测纳入决策,决定是否回答或加强学生的预测。
- 使用隐私组合框架(Rényi DP)来界定多次查询和任务的累积隐私损失。
- 将评估扩展到具有 150 输出类别的大规模、未经过滤的 Glyph 数据集,以评估隐私-效用权衡。
实验结果
研究问题
- RQ1PATE 是否能够扩展到具有大量输出类别且未经过滤、数据不平衡的任务,同时仍能保持强隐私保障?
- RQ2基于高斯噪声的 GNMax 及选择性聚合器相比原始拉普拉斯 LNMax,是否改善隐私成本和模型效用?
- RQ3数据依赖的隐私分析(通过 Rényi DP)在实现 GNMax 的紧隐私界方面有多有效?
- RQ4该方法是否能够在像 Glyph 这样的现实、大规模分类任务中以 ε≈1 实现高准确率?
主要发现
- 高斯 GNMax 相较于 LNMax 减少所需的噪声量,并收紧每次查询的隐私成本。
- 数据依赖的 RDP 分析在现实的 δ 下使每次查询的 ε 明显低于1,从而改善整体隐私成本。
- Confident-GNMax 与 Interactive-GNMax 选择性地回答查询,减少标注查询数量,改善隐私-效用权衡。
- 在 MNIST、SVHN、UCI Adult 和 Glyph 上的实验显示隐私和准确性的提高,Glyph 展示出扩展到 150 输出类别的可扩展性,以及对错误标注和不平衡的鲁棒性。
- 基于 VAT 的 Glyph 任务半监督学习在 PATE 框架下提供了强效用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。