QUICK REVIEW

[논문 리뷰] Understanding Gradient Clipping in Private SGD: A Geometric Perspective

Xiangyi Chen, Zhiwei Steven Wu|arXiv (Cornell University)|2020. 06. 27.

Privacy-Preserving Technologies in Data참고 문헌 17인용 수 61

한 줄 요약

논문은 gradient clipping이 SGD와 DP-SGD의 수렴에 미치는 편향을 분석하고, 대칭성 기반 수렴 프레임워크를 도입하며, 클리핑 편향을 완화하기 위한 perturbation 기법을 제안한다.

ABSTRACT

Deep learning models are increasingly popular in many machine learning applications where the training data may contain sensitive information. To provide formal and rigorous privacy guarantee, many learning systems now incorporate differential privacy by training their models with (differentially) private SGD. A key step in each private SGD update is gradient clipping that shrinks the gradient of an individual example whenever its L2 norm exceeds some threshold. We first demonstrate how gradient clipping can prevent SGD from converging to stationary point. We then provide a theoretical analysis that fully quantifies the clipping bias on convergence with a disparity measure between the gradient distribution and a geometrically symmetric distribution. Our empirical evaluation further suggests that the gradient distributions along the trajectory of private SGD indeed exhibit symmetric structure that favors convergence. Together, our results provide an explanation why private SGD with gradient clipping remains effective in practice despite its potential clipping bias. Finally, we develop a new perturbation-based technique that can provably correct the clipping bias even for instances with highly asymmetric gradient distributions.

연구 동기 및 목표

SGD 및 DP-SGD에서 gradient clipping이 수렴에 미치는 편향을 동기화하고 정량화한다.
대칭성 기반 기하학적 척도를 개발하여 clipping 편향을 한정한다.
Lipschitz 손실 가정을 사용하지 않고 DP-SGD에 대한 분석을 확장한다.
DP-SGD 훈련 중 gradient 분포의 대칭성을 경험적으로 검증한다.
편향된 gradient 분포하에서 clipping 편향을 줄이기 위한 perturbation 기반 기법을 제안한다.

제안 방법

gradient clipping이 적용된 SGD를 모델링하고 clipping 하에서 E[⟨∇f(x_t), g_t⟩]의 수렴을 분석한다.
주변의 대칭 분포와의 coupling을 통해 gradient 분포의 불일치(격차) 척도를 도입한다.
대칭성 하에서 클리핑된 기울기의 양의 정합성을 보여주는 정리 1 및 정리 2를 제시한다.
Gaussian 노이즈가 포함된 gradient clipping을 DP-SGD에 확장하고 분포 간 Wasserstein 거리를 포함하는 수렴 상한(정리 5)을 도출한다.
클리핑 전에 추가되는 Gaussian 잡음을 이용한 사전 perturbation을 제안하여 clipping 편향을 감소시키는 정리 6을 제시한다.
무작위 투사와 코사인 히스토그램을 통한 gradient 대칭성의 실험적 시각화를 제공한다.

실험 결과

연구 질문

RQ1클리핑 편향에도 불구하고 SGD와 DP-SGD에서 gradient clipping은 언제 수렴을 보존하는가?
RQ2gradient 분포의 대칭성이 진 gradient와 클리핑된 gradient 간의 정합성에 어떤 영향을 주는가?
RQ3프리-클리핑 perturbation이 프라이버시 보장을 해치지 않으면서 clipping 편향을 줄일 수 있는가?
RQ4DP-SGD의 수렴은 대칭성 척도와 gradient 분포 간 Wasserstein 거리와 어떻게 의존하는가?

주요 결과

최악의 사례에서 clipping 편향은 수렴을 방해할 수 있지만, gradient 분포의 대칭성은 클리핑된 기울기가 실제 기울기와 양의 정합성을 보장할 수 있다.
커플링 기반의 격차 척도(워터스타인 거리와 유사)는 clipping 편향을 한정하고 거의 대칭에 가까운 그래디언트에서 실용적 수렴을 설명한다.
실험적 결과는 DP-SGD 궤적을 따라 gradient 분포가 점점 더 대칭적으로 변함을 보여 주며 이론을 뒷받침한다.
DP-SGD의 경우 대칭적인 gradient 분포는 상수배까지 표준 O(√d/(nϵ)) 수렴 속도를 회복하며, 편향은 분포 간의 Wasserstein 거리와 관련된다.
클리핑 전에 perturbation 기법은 clipping 편향을 증명적으로 감소시키고 편향과 함께 분산 증가를 트레이드한다.
무작위 투사 및 코사인 히스토그램을 통한 시각화는 MNIST와 CIFAR-10에서 gradient 분포의 대략적인 대칭성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.