Skip to main content
QUICK REVIEW

[논문 리뷰] Toward Training at ImageNet Scale with Differential Privacy

Alexey Kurakin, Shuang Song|arXiv (Cornell University)|2022. 01. 28.
Privacy-Preserving Technologies in Data인용 수 21
한 줄 요약

이 논문은 JAX에서 DP-SGD를 사용하여 ImageNet 규모 모델을 차등 프라이버시로 학습하는 것을 조사한다. ε=10에서 ResNet-18의 top-1 정확도 47.9%를 달성하고 Places365 사전학습에서 시작하며, 규모 확장을 위한 공개 베이스라인과 코드 공유.

ABSTRACT

Differential privacy (DP) is the de facto standard for training machine learning (ML) models, including neural networks, while ensuring the privacy of individual examples in the training set. Despite a rich literature on how to train ML models with differential privacy, it remains extremely challenging to train real-life, large neural networks with both reasonable accuracy and privacy. We set out to investigate how to do this, using ImageNet image classification as a poster example of an ML task that is very challenging to resolve accurately with DP right now. This paper shares initial lessons from our effort, in the hope that it will inspire and inform other researchers to explore DP training at scale. We show approaches that help make DP training faster, as well as model types and settings of the training process that tend to work better in the DP setting. Combined, the methods we discuss let us train a Resnet-18 with DP to $47.9\%$ accuracy and privacy parameters $ε= 10, δ= 10^{-6}$. This is a significant improvement over "naive" DP training of ImageNet models, but a far cry from the $75\%$ accuracy that can be obtained by the same network without privacy. The model we use was pretrained on the Places365 data set as a starting point. We share our code at https://github.com/google-research/dp-imagenet, calling for others to build upon this new baseline to further improve DP at scale.

연구 동기 및 목표

  • 대규모 신경망을 ImageNet에서 차등 프라이버시 하에 학습하는 것을 동기 부여하고 평가한다.
  • _DP 학습의 유용성 및 효율성을 규모 확장에서 개선하기 위한 실용적 기법을 식별한다.
  • DP-확장 연구를 촉진하기 위한 재사용 가능한 baseline 및 오픈소스 자원을 제공한다.

제안 방법

  • 개별 데이터 포인트를 보호하기 위해 그래디언트 클리핑 및 가우시안 노이즈를 사용하는 차등 프라이버시 확률적 경사하강법(DP-SGD)을 사용한다.
  • Per-example 그래디언트 계산의 자동 벡터화와 최적화를 위해 JAX를 활용하여 DP 오버헤드를 줄인다.
  • 효과적인 DP 학습 설정을 식별하기 위해 모델 아키텍처(ResNet-18 대 ResNet-50), 전이 학습, 배치 크기 및 하이퍼파라미터를 체계적으로 탐색한다.
  • 공개 데이터(Places365)에서 모델을 사전 학습하고 ImageNet에서 DP-SGD로 미세조정하여 개인 정확도를 높인다.
  • 실용적인 DP 예산 ε(δ=1e-6)를 보고하고 대규모 DP를 위한 실행 가능한 baseline을 제공한다.

실험 결과

연구 질문

  • RQ1DP-SGD가 실용적인 프라이버시 예산하에서 의미 있는 정확도로 ImageNet 규모 모델을 학습할 수 있는가?
  • RQ2어떤 모델 아키텍처, 학습 설정 및 전이 학습 전략이 ImageNet에서 더 나은 DP 유틸리티를 제공하는가?
  • RQ3배치 크기, 에포크 수 및 하이퍼파라미터가 DP 학습의 프라이버시-유틸리티 트레이드오프에 어떻게 영향을 미치는가?
  • RQ4공개 사전학습 및 레이어 고정이 DP-파인튜닝 성능에 미치는 영향은 무엇인가?
  • RQ5향후 대규모 DP 연구를 가능하게 하는 기준 성능 및 도구는 무엇인가?

주요 결과

  • DP-SGD는 비제로 프라이버시 보장을 가진 ImageNet 규모 모델 학습이 가능하며, ε=10(δ=1e-6)에서 ResNet-18의 top-1 정확도 47.9%를 달성한다.
  • 더 작은 모델이 낮은 ε에서 더 큰 모델보다 우수한 성능을 보일 수 있고, 공개 데이터로의 전이 학습은 개인 정확도를 상당히 높인다.
  • JAX 기반의 DP 훈련은 속도 면에서 Opacus 및 TF-Privacy를 크게 능가하여 DP 학습을 실용적인 탐색에 더 가깝게 만든다; 8개의 V100 GPU를 사용한 ImageNet DP 에포크 시간은 약 555초(DP) 대 275.5초(비프라이버시)이다.
  • 더 긴 학습과 더 높은 노이즈가 더 짧은 학습과 더 낮은 노이즈보다 더 나은 정확도를 낳을 수 있으며, 고정된 ε에 대해 40–70 에포크에서 명확한 정확도 정체가 보인다.
  • 하이퍼파라미터 튜닝(클립 노름, 노이즈 스케일, 학습률)은 큰 영향을 미치며, 실용적인 튜닝 절차는 프라이버시 손실 없이 비사적 유사 성능으로 지도할 수 있다.
  • 대규모 DP의 균형에 영향을 주는 대용량 배치 전략과 전이 학습(레이어 고정 포함)은 더 나은 DP-유틸리티 균형을 제공하는 실행 가능한 수단이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.