Skip to main content
QUICK REVIEW

[논문 리뷰] Differentially-Private "Draw and Discard" Machine Learning

Vasyl Pihur, Aleksandra Korolova|arXiv (Cornell University)|2018. 07. 11.
Privacy-Preserving Technologies in Data참고 문헌 32인용 수 28
한 줄 요약

이 논문은 랜덤으로 선택된 모델 인스턴스를 업데이트하고 오래된 버전을 폐기함으로써 이종적이고 확장 가능한 기계학습에서 국소적 차별적 프라이버시를 달성하는 새로운 클라이언트 분산 프레임워크인 Draw and Discard 기계학습(DDML)을 소개한다. 이 방법은 강력한 프라이버시 보장을 보장하며, 평균화를 통해 모델 유틸리티를 향상시키고 스팸 방지 및 시스템 내성 기능을 통해 실용적인 구현을 가능하게 한다.

ABSTRACT

In this work, we propose a novel framework for privacy-preserving client-distributed machine learning. It is motivated by the desire to achieve differential privacy guarantees in the local model of privacy in a way that satisfies all systems constraints using asynchronous client-server communication and provides attractive model learning properties. We call it "Draw and Discard" because it relies on random sampling of models for load distribution (scalability), which also provides additional server-side privacy protections and improved model quality through averaging. We present the mechanics of client and server components of "Draw and Discard" and demonstrate how the framework can be applied to learning Generalized Linear models. We then analyze the privacy guarantees provided by our approach against several types of adversaries and showcase experimental results that provide evidence for the framework's viability in practical deployments.

연구 동기 및 목표

  • 국소적 차별적 프라이버시 모델 하에서 실용적이고 확장 가능하며 프라이버시 보장이 되는 기계학습 프레임워크를 설계하기 위해.
  • 수백만 대의 기기에서 비동기적이고 효율적인 모델 훈련을 가능하게 하면서도 강력한 프라이버시 보장을 유지하는 도전 과제를 해결하기 위해.
  • 스팸 탐지, 로드 밸런싱, 프라이버시 강화를 지원하는 아키텍처를 제공하면서도 모델 유틸리티를 훼손하지 않기 위해.
  • 최소한의 성능 오버헤드로 실세계 모바일 애플리케이션에서 국소적 차별적 프라이버시의 실현 가능성을 입증하기 위해.
  • 최소한의 엔지니어링 복잡도로 프로덕션 환경에서 프라이버시 보장 기계학습을 구현할 수 있도록 하기 위해.

제안 방법

  • 프레임워크는 서버에 k개의 독립적인 모델 인스턴스를 유지하며, 클라이언트 업데이트에 대해 랜덤으로 선택함으로써 로드 분산과 확장성을 달성한다.
  • 클라이언트는 라플라스 또는 가우시안 노이즈를 사용하여 국소적 차별적 프라이버시를 보장하는 차별적 프라이버시 업데이트를 현지에서 계산한다.
  • 각 클라이언트는 업데이트할 랜덤한 모델 인스턴스를 선택한 후, 원시 기울기 대신 업데이트된 모델만 서버에 전송함으로써 서버 측 프라이버시를 향상시킨다.
  • 서버는 랜덤으로 선택된 모델 인스턴스를 업데이트된 것으로 교체함으로써 동기화 없이 지속적인, 잠금이 없는 훈련을 가능하게 한다.
  • k개의 인스턴스에 걸친 모델 평균화는 분산을 안정화시키고 단일 인스턴스 접근 방식에 비해 유한 표본 성능을 향상시킨다.
  • 샘플링과 모델 평균화를 통한 프라이버시 강화는 가장 강력한 국소 모델 공격자 이외의 약한 공격자에 대해서도 보다 강력한 보장을 제공한다.

실험 결과

연구 질문

  • RQ1신뢰할 수 있는 중재자가 없이 국소적 차별적 프라이버시만을 사용하여 실용적이고 확장 가능하며 프라이버시 보장이 되는 기계학습 시스템을 구축할 수 있는가?
  • RQ2비동기적이고 분산된 환경에서 수백만 명의 클라이언트에서 모델 업데이트를 효율적이고 프라이버시 보장된 방식으로 집계할 수 있는가?
  • RQ3다중 모델 인스턴스 유지가 모델 유틸리티, 프라이버시 및 시스템 내성에 어떤 영향을 미치는가?
  • RQ4드로잉 앤 디스카드 메커니즘이 추가적인 교란과 평균화 덕분에 표준 국소 DP보다 더 강력한 프라이버시 보장을 제공할 수 있는가?
  • RQ5기존의 비밀 보장 기반 학습 전략에 비해 실세계 구현에서 이 프레임워크는 어떻게 성능을 발휘하는가?

주요 결과

  • DDML은 클라이언트 측 모델 업데이트에 캘리브레이션된 노이즈를 적용함으로써 순수한 국소적 차별적 프라이버시를 달성하여, 데이터 수집자조차도 강력한 프라이버시 보장을 확보한다.
  • k개의 모델 인스턴스 사용은 동기화 없이 지속적인 비동기 훈련을 가능하게 하여 시스템의 확장성과 가용성을 크게 향상시킨다.
  • k개 인스턴스에 걸친 모델 평균화는 분산을 안정화시키고 단일 인스턴스 업데이트 전략에 비해 뛰어난 유한 표본 성능을 보인다.
  • 프레임워크는 전송되는 것이 원시 기울기 대신 업데이트된 모델 뿐이므로, 더 약한 공격자에 대해 향상된 프라이버시 강화를 제공한다.
  • 시스템은 다수의 모델 인스턴스 유지 덕분에 스팸 탐지 기능을 갖춘 실세계 구현에서 실용적인 타당성을 입증한다.
  • 이 접근 방식은 기울기 가능 목표를 가진 신경망 및 기타 모델로도 확장 가능하며, 고급 노이즈 분포나 프라이버시 완화를 통한 유틸리티 향상 잠재력도 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.