QUICK REVIEW

[논문 리뷰] AdaCliP: Adaptive Clipping for Private SGD

Venkatadheeraj Pichapati, Ananda Theertha Suresh|arXiv (Cornell University)|2019. 08. 20.

Privacy-Preserving Technologies in Data참고 문헌 41인용 수 64

한 줄 요약

AdaCliP는 좌표별 적응 클리핑을 사용하여 추가 노이즈를 최소화하고 DP 제약 하에서 모델 정확도를 향상시키는 차등 프라이버시 SGD 알고리즘이다.

ABSTRACT

Privacy preserving machine learning algorithms are crucial for learning models over user data to protect sensitive information. Motivated by this, differentially private stochastic gradient descent (SGD) algorithms for training machine learning models have been proposed. At each step, these algorithms modify the gradients and add noise proportional to the sensitivity of the modified gradients. Under this framework, we propose AdaCliP, a theoretically motivated differentially private SGD algorithm that provably adds less noise compared to the previous methods, by using coordinate-wise adaptive clipping of the gradient. We empirically demonstrate that AdaCliP reduces the amount of added noise and produces models with better accuracy.

연구 동기 및 목표

DP-SGD에서 원칙적인 클리핑 전략의 필요성을 동기화하고 gradient 업데이트의 노이즈를 줄인다.
개인정보 보호로 인한 노이즈를 최소화하기 위해 적응적 그래디언트 변환과 클리핑에 대한 이론적으로 기반이 잡힌 프레임워크를 개발한다.
MNIST 및 다른 모델들에서 차등 프라이버시 제약 하의 모델 정확도 향상을 실험적으로 입증한다.

제안 방법

일반적인 그래디언트 변환 g^t -> w^t = (g^t - a^t) / b^t 를 제안하고, w^t를 각 좌표별로 norm 1으로 클리핑 한다.
클리핑된 변환 그래디언트에 가우시안 노이즈를 추가하고 원래 스케일로 다시 재스케일링하여 프라이빗 그래디언트 \\tilde{g}^t를 얻는다.
노이즈의 기대값을 최소화하도록 E||w^t||^2 (gamma)의 한계 하에서 최적의 a^t와 b^t를 도출하여, a^t_i = m^t_i 및 b^t_i = sqrt(s_i^t / gamma) * sqrt(sum_i s_i^t) 이다.
학습 중에 a^t와 b^t를 적응시키기 위해 노이즈가 있는 그래디언트로부터 런닝 평균 m^t과 근사 분산 s^t를 업데이트하는 AdaCliP 알고리즘을 제시한다.
고정 학습률과 DP 그래디언트를 사용한 AdaCliP에 대해 비볼록 목적함수의 수렴 보장을 제공한다.

실험 결과

연구 질문

RQ1좌표별 적응 클리핑이 전역(clipping) 또는 벡터별 클리핑에 비해 DP-SGD에 추가되는 노이즈를 최소화할 수 있는가?
RQ2그래디언트 노름 한계 아래에서 추가되는 가우시안 노이즈를 최소화하는 최적의 변환 매개변수 a^t와 b^t는 무엇인가?
RQ3동일한 DP 예산하에서 MNIST 및 관련 모델에서 적응 클리핑과 변환이 더 나은 실험적 정확도에 이르는가?
RQ4비볼록 목적에서 소음, 바이어스, 수렴 측면에서 AdaCliP가 기존의 DP-SGD 방법들과 어떻게 비교되는가?

주요 결과

AdaCliP는 좌표별 적응 클리핑을 사용함으로써 이전의 DP-SGD 방법들보다 노이즈를 더 적게 추가하는 것으로 수학적으로 증명된다.
실험적으로 AdaCliP는 동일한 프라이버시 설정에서 MNIST 및 유사한 모델들에 대해 이전 방법들보다 더 높은 정확도를 달성한다.
이론적 결과는 최적의 a^t와 b^t 선택이 표준 화이트닝과 다르며 추가 노이즈의 L2 노름을 감소시킬 수 있음을 보여준다.
모멘텀 기반 최적화는 실험에서 AdaCliP를 사용하는 SGD를 능가하지 못했고, 반복당 노이즈가 더 작았음에도 그렇다.
실험은 주어진 (epsilon, delta) 프라이버시 예산에서 AdaCliP가 기준 방법들에 비해 최대 1.6%의 정확도 향상을 가져다줌을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.