[논문 리뷰] Differentially Private Data Generative Models
이 논문은 기밀성 보장을 위해 고유한 유틸리티를 갖춘 합성 데이터를 생성하는 두 가지 차별적 비공식적 생성 모델—DP-AuGM(차별적 비공식적 오토에코더 기반 생성 모델) 및 DP-VaeGM(차별적 비공식적 변분 오토에코더 기반 생성 모델)—을 제안한다. 이 모델들은 데이터 편향과 함께 차별적 비공식성을 결합하여 모델 역전환 공격, 멤버십 추론 공격 및 GAN 기반 공격에 대응하며, 머신러닝 as a service 및 피어드 페더레이티드 학습과 같은 실제 시스템에 원활하게 통합될 수 있다.
Deep neural networks (DNNs) have recently been widely adopted in various applications, and such success is largely due to a combination of algorithmic breakthroughs, computation resource improvements, and access to a large amount of data. However, the large-scale data collections required for deep learning often contain sensitive information, therefore raising many privacy concerns. Prior research has shown several successful attacks in inferring sensitive training data information, such as model inversion, membership inference, and generative adversarial networks (GAN) based leakage attacks against collaborative deep learning. In this paper, to enable learning efficiency as well as to generate data with privacy guarantees and high utility, we propose a differentially private autoencoder-based generative model (DP-AuGM) and a differentially private variational autoencoder-based generative model (DP-VaeGM). We evaluate the robustness of two proposed models. We show that DP-AuGM can effectively defend against the model inversion, membership inference, and GAN-based attacks. We also show that DP-VaeGM is robust against the membership inference attack. We conjecture that the key to defend against the model inversion and GAN-based attacks is not due to differential privacy but the perturbation of training data. Finally, we demonstrate that both DP-AuGM and DP-VaeGM can be easily integrated with real-world machine learning applications, such as machine learning as a service and federated learning, which are otherwise threatened by the membership inference attack and the GAN-based attack, respectively.
연구 동기 및 목표
- 민감한 학습 데이터로 인한 기계학습에서의 기밀성 위험을 해결하기 위해, 특히 협업 및 클라우드 기반 환경에서의 위험을 줄이기 위해.
- 하류 학습 작업을 위한 데이터 유틸리티를 유지하면서 강력한 기밀성 보장을 제공하는 합성 데이터를 생성하는 생성 모델을 개발하기 위해.
- 피어드 페더레이티드 학습 환경에서의 모델 역전환, 멤버십 추론 및 GAN 기반 그래디언트 泄露 공격을 포함한 현대적 기밀성 공격에 대응하기 위해.
- 실제 기계학습 시스템, 예를 들어 머신러닝 as a service 및 피어드 페더레이티드 학습에 기밀성 보존 데이터 생성을 실용적으로 통합하기 위해.
- 데이터 편향과 함께 차별적 비공식성이 비멤버십 기반 기밀성 공격(예: 모델 역전환 및 GAN 기반 재구성)에 대응하는 데 핵심 요소임을 입증하기 위해.
제안 방법
- 민감한 데이터를 기반으로 훈련된 차별적 비공식적 오토에코더인 DP-AuGM을 제안하며, 노이즈 주입을 통해 차별적 비공식성을 확보하고 지역적 데이터 합성을 가능하게 한다.
- 잠재 공간의 노이즈를 통해 추론 및 생성 과정에 모두 차별적 비공식성을 적용하는 DP-VaeGM, 즉 차별적 비공식적 변분 오토에코더를 개발한다.
- 제한된 기울기 클리핑과 노이즈 추가를 사용하여 훈련 과정에 차별적 비공식성을 적용함으로써 생성 모델에 대해 (ε, δ)-차별적 비공식성을 보장한다.
- 공개 또는 정제된 데이터를 훈련된 생성 모델의 입력으로 사용하여 제3자가 원래의 민감한 데이터를暴露하지 않고도 새로운 합성 데이터를 생성할 수 있도록 한다.
- 생성 모델이 교사 역할을 하여 학생 모델을 위한 합성 데이터를 생성하는 지식 정복 유사 메커니즘을 활용하며, 기밀성과 유틸리티를 유지한다.
- MLaaS 및 피어드 페더레이티드 학습 파이프라인에 모델을 통합하여 원시 민감한 데이터 대신 합성 데이터를 사용함으로써 모델 역전환 및 그래디언트 기반 공격으로 인한 위험을 완화한다.
실험 결과
연구 질문
- RQ1차별적 비공식적 생성 모델은 모델 출력에서 민감한 학습 데이터를 재구성하는 모델 역전환 공격에 효과적으로 대응할 수 있는가?
- RQ2DP-AuGM과 DP-VaeGM은 데이터 포인트가 학습 세트에 포함되었는지 여부를 판단하는 멤버십 추론 공격에 저항할 수 있는가?
- RQ3이러한 모델들은 협업 학습 시스템에서 공유된 그래디언트에서 비롯된 민감한 데이터를 재구성하는 GAN 기반 공격을 완화할 수 있는가?
- RQ4비멤버십 기반 기밀성 공격에 대응할 때, 차별적 비공식성과 데이터 편향 중 어느 것이 더 중요한 기여를 하는가?
- RQ5MLaaS 및 피어드 페더레이티드 학습과 같은 실제 시스템에 이 모델들을 얼마나 잘 통합할 수 있는가? 이때 데이터 유틸리티를 손상시키지 않고서도.
주요 결과
- DP-AuGM은 훈련 과정이 차별적 비공식적일지라도 협업 딥 러닝에서 모델 역전환, 멤버십 추론 및 GAN 기반 공격에 효과적으로 대응함을 입증한다.
- DP-VaeGM은 멤버십 추론 공격에 대해 뛰어난 저항력을 보이며, 기밀성 보존 모델 훈련에 실용적인 유용성을 확인한다.
- 저자들은 모델 역전환 및 GAN 기반 공격에 대한 주요 방어 수단이 차별적 비공식성 자체가 아니라 훈련 중의 데이터 편향임을 추측한다.
- DP-AuGM과 DP-VaeGM은 모두 높은 데이터 유틸리티를 유지하여 생성된 합성 데이터를 기반으로 효과적인 하류 기계학습 작업을 수행할 수 있다.
- 이 모델들은 MLaaS 및 피어드 페더레이티드 학습 시스템에 쉽게 통합될 수 있으며, 원시 데이터 대신 차별적 비공식적 합성 데이터를 사용함으로써 기밀성 泄露를 방지한다.
- 생성된 데이터를 기반으로 훈련된 모든 기계학습 모델은 생성 모델의 차별적 비공식성 보장을 이어받아 종단 간 기밀성 보호를 보장한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.