Skip to main content
QUICK REVIEW

[논문 리뷰] CodedPrivateML: A Fast and Privacy-Preserving Framework for Distributed Machine Learning

Jinhyun So, Başak Güler|arXiv (Cornell University)|2019. 02. 02.
Privacy-Preserving Technologies in Data인용 수 44
한 줄 요약

CodedPrivateML은 분산 ML에서 학습 데이터에 대한 정보이론적 프라이버시를 제공하면서 효율적인 병렬화를 가능하게 한다; 양자화와 다항 근사를 이용한 Lagrange 코딩으로 수렴성과 협력 워커에 대한 프라이버시를 달성한다.

ABSTRACT

How to train a machine learning model while keeping the data private and secure? We present CodedPrivateML, a fast and scalable approach to this critical problem. CodedPrivateML keeps both the data and the model information-theoretically private, while allowing efficient parallelization of training across distributed workers. We characterize CodedPrivateML's privacy threshold and prove its convergence for logistic (and linear) regression. Furthermore, via extensive experiments on Amazon EC2, we demonstrate that CodedPrivateML provides significant speedup over cryptographic approaches based on multi-party computing (MPC).

연구 동기 및 목표

  • 정보이론적 보장을 사용하여 최대 T명의 협력 워커에 대해 학습 데이터의 프라이버시를 보호한다.
  • N명의 워커에 걸쳐 그래디언트 계산을 효과적으로 병렬화하여 빠른 분산 학습을 가능하게 한다.
  • 통신 및 계산 오버헤드를 줄이기 위해 Lagrange 코딩 기반의 인코딩/양자화 스킴을 개발한다.
  • 다항 근사를 통해 비다항 시그모이드 연산에도 불구하고 로지스틱(및 선형) 회귀의 수렴을 보장한다.
  • 프라이버시 수준(T)과 병렬화 이점 간의 이론적 트레이드오프 분석을 제공한다.

제안 방법

  • 확률적 양자화와 2단계 시크릿 쉐어링을 통해 데이터셋과 가중치를 유한체로 양자화한다.
  • 양자화된 데이터와 가중치를 Lagrange 코딩으로 인코딩하여 T명의 협력 워커에 대한 프라이버시를 가능하게 하고 작업 부하를 분산한다.
  • 시그모이드를 차수 r의 다항식으로 근사하여 다항식 기반 계산에 맞춘다.
  • r개의 독립 양자화를 사용한 편향이 없는 ar{s} 추정기를 이용해 그래디언트를 계산하고 수렴을 보장한다.
  • 마스터에서 집계된 그래디언트를 다항식 보간으로 디코딩하고 가중치 업데이트를 위해 실수 도메인으로 되돌린다.

실험 결과

연구 질문

  • RQ1협력 워커에 대한 정보이론적 프라이버시를 보장하면서 분산 설정에서 ML 모델을 훈련시키려면 어떻게 해야 하는가?
  • RQ2양자화와 다항 근사하에서 로지스틱 및 선형 회귀에 대해 학습 절차가 최적점으로 수렴할 수 있는가?
  • RQ3CodedPrivateML에서 프라이버시(T)와 병렬화(N, K) 간의 트레이드오프는 무엇인가?
  • RQ4CodedPrivateML는 속도와 정확도 측면에서 MPC 기반 프라이버시 보존 방법과 어떻게 비교되는가?
  • RQ5스트래글러 워커가 존재하는 경우 그래디언트 디코딩의 성공적 복구를 위한 필요한 조건(예: 회복 임계값)은 무엇인가?

주요 결과

  • 제안된 양자화 및 다항 근사 스킴을 이용한 로지스틱 회귀에서 최적 손실로의 수렴을 보장한다.
  • 최대 T명의 협력 워커에 대해 정보이론적 프라이버시를 제공하는 동시에 N명의 워커에 걸친 병렬화를 가능하게 한다.
  • 50명의 워커까지의 실험에서 MPC 기반 기준선에 비해 실질적인 속도 향상을 달성한다.
  • CIFAR-10 및 GISETTE에 대한 실험에서 MPC 기반 방법에 비해 유의하게 더 빠른 학습 시간으로 유사한 정확도를 보인다.
  • 프라이버시 수준(T)과 병렬화 이점 간에 트레이드오프가 존재하며 더 많은 워커는 프라이버시를 강화하거나 워커당 계산을 줄일 수 있다.
  • 이 방법은 데이터를 인코딩하여 코딩된 계산이 비인코딩 계산의 구조를 모방하도록 하여 그래디언트 평가의 정확성을 보존한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.