Skip to main content
QUICK REVIEW

[논문 리뷰] DP-MERF: Differentially Private Mean Embeddings with Random Features for Practical Privacy-Preserving Data Generation

Frederik Harder, Kamil Adamczewski|arXiv (Cornell University)|2020. 02. 26.
Privacy-Preserving Technologies in Data참고 문헌 38인용 수 23
한 줄 요약

이 논문은 커널 평균 임베딩의 무작위 특징 근사를 사용하여 효율적이고 고유용도의 프라이버시 보장 생성을 가능하게 하는 비차별적(private) 데이터 생성 방법인 DP-MERF를 제안한다. 데이터에 의존하는 항과 데이터에 독립적인 항을 분리하고 분석적으로 유계인 무작위 특징을 활용함으로써, GAN 기반 방법보다 훨씬 우수한 프라이버시-유용도 트레이드오프를 달성하며, MNIST 및 표본 데이터에서 강력한 프라이버시 제약(예: ϵ = 0.2) 조건에서도 그 성능을 뛰어넘는다.

ABSTRACT

We propose a differentially private data generation paradigm using random feature representations of kernel mean embeddings when comparing the distribution of true data with that of synthetic data. We exploit the random feature representations for two important benefits. First, we require a minimal privacy cost for training deep generative models. This is because unlike kernel-based distance metrics that require computing the kernel matrix on all pairs of true and synthetic data points, we can detach the data-dependent term from the term solely dependent on synthetic data. Hence, we need to perturb the data-dependent term only once and then use it repeatedly during the generator training. Second, we can obtain an analytic sensitivity of the kernel mean embedding as the random features are norm bounded by construction. This removes the necessity of hyper-parameter search for a clipping norm to handle the unknown sensitivity of a generator network. We provide several variants of our algorithm, differentially-private mean embeddings with random features (DP-MERF) to jointly generate labels and input features for datasets such as heterogeneous tabular data and image data. Our algorithm achieves drastically better privacy-utility trade-offs than existing methods when tested on several datasets.

연구 동기 및 목표

  • 기존의 비차별적 데이터 생성 방법들이 겪는 높은 프라이버시 비용과 제한된 유용도 문제를 해결하기 위해.
  • 반복적 프라이버시 메커니즘의 제약 없이 실용적이고 확장 가능한 프라이버시 보장 데이터 생성을 가능하게 하기 위해.
  • 데이터에 의존하는 항을 분리함으로써 딥 생성 모델 학습에 필요한 프라이버시 예산을 줄이기 위해.
  • 노름 유계 무작위 특징를 통해 커널 평균 임베딩의 분석적 감도 경계를 제공하기 위해.
  • 강력한 프라이버시 보장(예: ϵ ≤ 0.2) 조건에서도 합성 데이터를 사용한 후행 작업 성능을 향상시키기 위해.

제안 방법

  • 무작위 푸리에 특징을 사용하여 커널 평균 임베딩을 근사함으로써 효율적이고 비차별적인 계산을 가능하게 한다.
  • 프라이버시가 필요한 데이터에 의존하는 평균 임베딩과 프라이버시 비용이 없는 데이터에 독립적인 합성 임베딩을 분리한다.
  • 데이터에 의존하는 항에 대해 단일 비차별적 배포를 적용하며, 이는 생성자 학습 중에 재사용된다.
  • 무작위 특징의 노름 유계성(1 이내)에 기반한 분석적 감도 경계를 활용하여 기울기 클리핑이나 하이퍼파rameter 튜닝이 필요 없게 한다.
  • 비차별적 진짜 데이터 임베딩과 합성 데이터 임베딩 간의 MMD를 최소화하는 단순한 목표 함수를 사용해 생성자를 학습한다.
  • 탄성 있고 GAN 기반 아님 기반 최적화 프레임워크를 통해 이질적인 표본 및 이미지 데이터의 입력 특징과 레이블을 함께 생성할 수 있다.

실험 결과

연구 질문

  • RQ1커널 평균 임베딩의 무작위 특징 근사는 낮은 프라이버시 비용으로 더 효율적인 비차별적 데이터 생성을 가능하게 할 수 있는가?
  • RQ2MMD 목표 함수에서 데이터에 의존하는 항과 데이터에 독립적인 항을 분리함으로써 단일의 재사용 가능한 프라이버시 배포를 가능하게 하여 총 프라이버시 예산을 줄일 수 있는가?
  • RQ3분석적으로 유계인 무작위 특징는 비차별적 학습에서 기울기 클리핑과 감도 하이퍼파rameter 튜닝이 필요 없게 할 수 있는가?
  • RQ4이미지 및 표본 데이터 세트에서 DP-MERF는 GAN 기반 비차별적 데이터 생성 방법과 비교해 프라이버시-유용도 트레이드오프에서 어떻게 성능을 내는가?
  • RQ5강력한 프라이버시 제약 조건(예: ϵ = 0.2)에서도 DP-MERF는 후행 기계학습 작업에 대해 높은 유용도를 유지할 수 있는가?

주요 결과

  • DP-MERF는 ϵ = 0.2에서 MNIST에서 모든 GAN 기반 기준보다 뛰어나며, 이는 더 약한 프라이버시 조건(예: ϵ = 9.6)에서 학습된 모델들조차도 뛰어넘는다.
  • FashionMNIST에서 DP-MERF는 ϵ = 0.2일 때 테스트 정확도 0.53을 기록하여, ϵ = 9.6에서 학습된 DP-CGAN(0.39)과 DP-GAN(0.46)을 크게 앞서나간다.
  • 표본 데이터에서는 12개의 데이터셋 전반에서 동일한 프라이버시 수준에서 DP-CGAN 및 DP-GAN보다 더 높은 평가 지표 점수를 기록한다.
  • 분석적으로 유계인 무작위 특징 덕분에 단일이고 낮은 감도의 DP 배포로 강력한 프라이버시 보장을 달성한다.
  • DP-MERF에서 생성된 샘플은 더 노이지하지만, 독특한 데이터 특징을 유지하며, GS-WGAN 및 DP-CGAN의 더 고급진 보기에 비해 후행 분류 작업에서 더 뛰어난 성능을 보인다.
  • cervix cancer 데이터에서 비차별적 MERF 베이스라인은 생성 샘플의 분산에 의한 정규화 효과 덕분에 실제 데이터보다 더 뛰어난 성능을 보이며, 이는 방법의 일반화 이점이 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.