Skip to main content
QUICK REVIEW

[论文解读] Understanding Gradient Clipping in Private SGD: A Geometric Perspective

Xiangyi Chen, Zhiwei Steven Wu|arXiv (Cornell University)|Jun 27, 2020
Privacy-Preserving Technologies in Data参考文献 17被引用 61
一句话总结

本文分析了梯度裁剪如何偏置 SGD 与 DP-SGD,引入基于对称性的收敛框架,并提出一种扰动技术以减小裁剪偏差。

ABSTRACT

Deep learning models are increasingly popular in many machine learning applications where the training data may contain sensitive information. To provide formal and rigorous privacy guarantee, many learning systems now incorporate differential privacy by training their models with (differentially) private SGD. A key step in each private SGD update is gradient clipping that shrinks the gradient of an individual example whenever its L2 norm exceeds some threshold. We first demonstrate how gradient clipping can prevent SGD from converging to stationary point. We then provide a theoretical analysis that fully quantifies the clipping bias on convergence with a disparity measure between the gradient distribution and a geometrically symmetric distribution. Our empirical evaluation further suggests that the gradient distributions along the trajectory of private SGD indeed exhibit symmetric structure that favors convergence. Together, our results provide an explanation why private SGD with gradient clipping remains effective in practice despite its potential clipping bias. Finally, we develop a new perturbation-based technique that can provably correct the clipping bias even for instances with highly asymmetric gradient distributions.

研究动机与目标

  • 激励并量化梯度裁剪如何在 SGD 与 DP-SGD 中偏置收敛。
  • 开发基于对称性的几何度量来界定裁剪偏差。
  • 在不依赖 Lipschitz 损失假设的情况下将分析扩展到 DP-SGD。
  • 在 DP-SGD 训练中经验性验证梯度分布的对称性。
  • 提出一种扰动技术,在梯度分布偏斜时降低裁剪偏差。

提出的方法

  • 在梯度裁剪下对带有梯度裁剪的 SGD 建模并分析 E[⟨∇f(x_t), g_t⟩] 的收敛性。
  • 通过将梯度分布耦合到附近的对称分布来引入一个不平等度量。
  • 建立定理 1 和定理 2,在对称性下显示裁剪梯度的正向对齐。
  • 扩展到带梯度裁剪和高斯噪声的 DP-SGD,推导收敛界(定理 5),涉及分布之间的 Wasserstein 距离。
  • 提出一种裁剪前扰动(在裁剪前加入高斯噪声)以降低裁剪偏差(定理 6)。
  • 通过随机投影和余弦直方图提供梯度对称性的经验可视化。

实验结果

研究问题

  • RQ1在裁剪偏差存在的情况下,梯度裁剪何时能在 SGD 与 DP-SGD 中保持收敛?
  • RQ2梯度分布的对称性如何影响真实梯度与裁剪后梯度之间的对齐?
  • RQ3裁剪前的扰动是否可以在不削弱隐私保证的前提下降低裁剪偏差?
  • RQ4DP-SGD 的收敛性如何依赖于对称性度量和梯度分布之间的 Wasserstein 距离?

主要发现

  • 在最坏情况的示例中,裁剪偏差可能阻碍收敛,但梯度分布的对称性可以确保裁剪后的梯度与真实梯度的正向对齐。
  • 基于耦合的不平等度量(类似 Wasserstein 距离)约束裁剪偏差并解释在近对称梯度下的实际收敛。
  • 经验结果显示 DP-SGD 路径上的梯度分布逐渐变得对称,支持理论。
  • 对于 DP-SGD,对称的梯度分布在常数因子内恢复标准的 O(√d/(nϵ)) 收敛率;偏差与分布之间的 Wasserstein 距离相关。
  • 裁剪前扰动技术可证明地降低裁剪偏差,偏差与方差的权衡。
  • 通过随机投影和余弦直方图的可视化表明 MNIST 和 CIFAR-10 上的梯度分布呈近似对称。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。