QUICK REVIEW

[논문 리뷰] Differentially Private Diffusion Models

Tim Dockhorn, Tianshi Cao|arXiv (Cornell University)|2022. 10. 18.

Privacy-Preserving Technologies in Data인용 수 21

한 줄 요약

The paper introduces DPDMs trained with DP-SGD, plus a noise-multiplicity technique, achieving state-of-the-art private image generation and strong downstream classifier performance.

ABSTRACT

While modern machine learning models rely on increasingly large training datasets, data is often limited in privacy-sensitive domains. Generative models trained with differential privacy (DP) on sensitive data can sidestep this challenge, providing access to synthetic data instead. We build on the recent success of diffusion models (DMs) and introduce Differentially Private Diffusion Models (DPDMs), which enforce privacy using differentially private stochastic gradient descent (DP-SGD). We investigate the DM parameterization and the sampling algorithm, which turn out to be crucial ingredients in DPDMs, and propose noise multiplicity, a powerful modification of DP-SGD tailored to the training of DMs. We validate our novel DPDMs on image generation benchmarks and achieve state-of-the-art performance in all experiments. Moreover, on standard benchmarks, classifiers trained on DPDM-generated synthetic data perform on par with task-specific DP-SGD-trained classifiers, which has not been demonstrated before for DP generative models. Project page and code: https://nv-tlabs.github.io/DPDM.

연구 동기 및 목표

Diffusion 모델을 차등 프라이버시 하에서 학습해 개인 합성 데이터 생성을 가능하게 한다는 동기를 부여한다.
DM 매개화(parameterization)와 샘플링이 DP 성능과 유용성에 어떤 영향을 주는지 연구한다.
노이즈 다중성을 도입해 DP-SGD 하에서 그래디언트 분산을 줄인다.
표준 벤치마크에서 DP 이미지 합성 결과를 최첨단으로 보여준다.
DPDM으로 생성된 데이터를 이용해 학습된 분류기가 작업별 DP 분류기와 경쟁하는지 입증한다.

제안 방법

DP-SGD를 적용하여 예시별 그래디언트 클리핑과 가우시안 노이즈를 사용해 확산 모델을 학습한다.
노이즈 다중성: 그래디언트 클리핑/노이즈 주입 전에 데이터 포인트당 K개의 노이즈 샘플에 대해 손실을 계산한다.
4가지 DM 구성(분산 보존/발산, v-예측, EDM)과 그들의 노이즈 스케줄을 평가한다.
DP 하에서 지각 품질을 개선하기 위해 확률적 DM 샘플링(DDIM/Churn)을 사용한다.
Rényi DP를 이용한 프라이버시 계정과 (ε,δ)-DP로의 변환을 제공하고, DPDM 학습에 대한 DP 보장을 증명한다.

실험 결과

연구 질문

RQ1diffusion 모델을 DP-SGD로 학습하여 고품질의 합성 데이터를 생성할 수 있는가?
RQ2DM 매개화 및 샘플링 전략이 DP 유틸리티와 프라이버시 트레이드오프에 영향을 미치는가?
RQ3제안된 노이즈 다중성이 DP 하에서 학습 효율성과 프라이버시-유용성 개선에 기여하는가?
RQ4DPDM이 표준 이미지 합성 벤치마크 및 다운스트림 분류 작업에서 기존 DP 생성 방법들과 비교해 어떤 성능을 보이는가?

주요 결과

DPDM은 일반적인 벤치마크(MNIST 등)에서 프라이버시 예산 전역에 걸쳐 최첨단 DP 이미지 합성을 달성한다.
DP ε=1에서 MNIST에 대해 DPDM은 FID 23.4와 실제 데이터 분류기가 DPDM 데이터로 학습될 때 다운스트림 정확도 95.3%를 달성한다.
DPDM이 생성한 데이터를 이용해 특정 작업용 DP 학습 판별 모델에 근접하는 성능의 분류기를 학습시킬 수 있다.
노이즈 다중성은 그래디언트 분산을 줄이고 학습 효율을 개선하지만 프라이버시 예산을 증가시키지 않는다.
DP-SGD 기반 확산 모델 학습은 유사 프라이버시 제약 하에서 DP-학습 GAN보다 더 안정적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.