QUICK REVIEW

[논문 리뷰] Differentially Private Learning Needs Better Features (or Much More Data)

Florian Tramèr, Dan Boneh|arXiv (Cornell University)|2020. 11. 23.

Privacy-Preserving Technologies in Data참고 문헌 75인용 수 66

한 줄 요약

이 논문은 차등 프라이버시 학습이 수작업으로 만든 특징(ScatterNet) 또는 전이 학습으로부터 상당한 이점을 얻는다는 것을 보여주고, 끝-to-끝(private) 딥 러닝은 훨씬 더 많은 데이터나 공개 데이터가 있을 때만 뒤처짐이 줄어든다는 것을 보인다.

ABSTRACT

We demonstrate that differentially private machine learning has not yet reached its "AlexNet moment" on many canonical vision tasks: linear models trained on handcrafted features significantly outperform end-to-end deep neural networks for moderate privacy budgets. To exceed the performance of handcrafted features, we show that private learning requires either much more private data, or access to features learned on public data from a similar domain. Our work introduces simple yet strong baselines for differentially private learning that can inform the evaluation of future progress in this area.

연구 동기 및 목표

비전 태스크에서 private end-to-end 학습과 얕은 handcrafted-feature baselines 간의 유용성 차이를 동기화하고 정량화한다.
차별적으로 프라이버시가 보장되는 학습을 위한 강력한 handcrafted baselines(ScatterNet 특징과 DP-SGD)를 제안하고 평가한다.
수렴과 데이터 요건을 포함한 handcrafted 특징의 이점 뒤의 요인을 조사한다.
보다 많은 데이터나 공개 데이터에서의 transfer learning이 프라이버시-유용성 차이를 줄일 수 있는지 평가한다.
프랙티컬한 baselines를 제공하고 프라이빗 딥 러닝을 개선하기 위한 개방 방향을 제시한다.

제안 방법

Scattering Network(ScatterNet)를 고정된 비학습 특징 추출기로 사용하여 이미지 편향(작은 회전/이동에 대한 불변성)을 인코딩한다.
ScatterNet 특징 위에 DP-SGD를 사용하여 정규화를 신중하게 선택한 상태에서 프라이빗 선형 모델 또는 프라이빗 CNN을 학습한다.
다양한 DP 예산에서 MNIST, Fashion-MNIST, CIFAR-10에 대해 프라이빗 ScatterNet baselines를 엔드-투-엔드 프라이빗 CNN과 체계적으로 비교한다.
프라이빗 학습 성능에 대한 수렴 동작 및 특징 차원 수, 학습률, 배치 크기의 영향과 같은 요소를 분석한다.
추가 프라이빗 데이터(가짜 라벨링된 Tiny Images) 및 공개 데이터(CIFAR-100, SimCLR/ImageNet)에서의 transfer learning을 통해 DP 유용성을 개선하는 방법을 탐구한다.
재현 가능한 결과를 보고하고 재현을 위한 공개 코드를 제공한다.

실험 결과

연구 질문

RQ1 handcrafted 특징이 엔드-투-엔드 프라이빗 학습과 비교할 때 차등 프라이버시 비전 모델의 프라이버시-유용성 트레이드를 개선할 수 있는가?
RQ2ScatterNet 특징이 표준 비전 벤치마크에서 중간 수준의 프라이버시 예산 하에 수렴 및 DP-SGD 성능에 어떤 영향을 미치는가?
RQ3엔드-투-엔드 프라이빗 모델이 handcrafted-feature baselines와 일치하기 위해 필요한 데이터 비용(프라이빗 데이터 또는 공개 데이터)은 얼마인가?
RQ4공개 데이터 또는 더 큰 프라이빗 데이터에서의 transfer learning이 DP-SGD의 프라이버시-유용성 차이를 좁힐 수 있는가?
RQ5고품질 handcrafted 특징으로 학습된 더 깊은 네트워크가 선형 모델보다 성능이 우수한가, 어떤 조건에서?

주요 결과

데이터	ε-DP	소스	CNN	ScatterNet+linear	ScatterNet+CNN
MNIST	1.2	Feldman & Zrnic ( 2020 )	96.6	98.1±0.1	97.8±0.1
Fashion-MNIST	2.7	Papernot et al. ( 2020a )	86.1	89.5±0.0	88.7±0.1
CIFAR-10	3.0	Nasr et al. ( 2020 )	55.0	67.0±0.1	69.3±0.2

ScatterNet 특징으로 학습된 선형 모델은 DP 예산 ε ≤ 3에서 MNIST, Fashion-MNIST, CIFAR-10에 대해 엔드-투-엔드 프라이빗 CNN보다 우수하다.
CIFAR-10에서 ScatterNet+linear는 DP 예산에 따라 67.0–69.3%의 성능을 달성하며, 이전의 엔드-투-엔드 프라이빗 CNN 결과를 능가하고 참고 기준 대비 DP-제공을 약 134배(e⁴⁺) 향상시킨다.
MNIST에서 ScatterNet 기반 접근은 공개 데이터 접근 없이도 private transfer-learning 벤치마크(PATE 등)에 도달하거나 이를 상회한다.
ScatterNet 특징으로 학습된 더 깊은 모델도 일부 경우(예: CIFAR-10)에서 엔드-투-엔드 프라이빗 CNN보다 프라이빗 성능을 향상시킨다.
ScatterNet 특징의 정규화(Group Normalization 또는 Data Normalization)은 수렴성과 프라이버시-유용성 성능에 결정적이며, 프라이버시 비용이 정당화될 때 CIFAR-10에서 Data Normalization이 Group Normalization보다 더 우수할 수 있다.
추가 프라이빗 데이터나 공개 미레이블 데이터(ImageNet, SimCLR)에 대한 접근은 프라이빗 엔드-투-엔드 학습을 크게 향상시키며 엔드-투-엔드 모델이 ScatterNet baselines에 근접하거나 이를 능가하도록 만든다.
공개 데이터(CIFAR-100, SimCLR/ImageNet)에서의 transfer learning은 DP 하에서 주목할 만한 이점을 제공하여 프라이빗 학습에 더 높은 품질의 특징의 가치를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.