Skip to main content
QUICK REVIEW

[논문 리뷰] A Scalable Approach for Privacy-Preserving Collaborative Machine Learning

Jinhyun So, Başak Güler|arXiv (Cornell University)|2020. 11. 03.
Privacy-Preserving Technologies in Data참고 문헌 37인용 수 25
한 줄 요약

이 논문은 코딩 이론을 활용해 데이터셋을 비밀 공유하고 여러 당사자 간에 계산을 분산시키는 완전히 탈중앙화된 프라이버시 보장 협업 로지스틱 회귀 프레임워크인 COPML을 제안한다. 이는 MPC 기반 기준 대비 최대 16.4배의 속도 향상을 달성하면서도 무한한 계산 능력을 지닌 공모 공격자에 대비해 정보 이론적 프라이버시를 제공한다.

ABSTRACT

We consider a collaborative learning scenario in which multiple data-owners wish to jointly train a logistic regression model, while keeping their individual datasets private from the other parties. We propose COPML, a fully-decentralized training framework that achieves scalability and privacy-protection simultaneously. The key idea of COPML is to securely encode the individual datasets to distribute the computation load effectively across many parties and to perform the training computations as well as the model updates in a distributed manner on the securely encoded data. We provide the privacy analysis of COPML and prove its convergence. Furthermore, we experimentally demonstrate that COPML can achieve significant speedup in training over the benchmark protocols. Our protocol provides strong statistical privacy guarantees against colluding parties (adversaries) with unbounded computational power, while achieving up to $16 imes$ speedup in the training time against the benchmark protocols.

연구 동기 및 목표

  • 다른 당사자에게 개인 데이터셋을 노출하지 않고도 다수의 데이터 소유자가 함께 로지스틱 회귀 모델을 훈련시킬 수 있도록 하는 것.
  • 기존 MPC 기반 접근 방식이 3~4명의 당사자 초과 시스템 확장에 한계를 지닌다는 문제를 해결하는 것.
  • 강력한 프라이버시 보장을 유지하면서도 보안 다자 계산에서의 훈련 시간과 통신 오버헤드를 줄이는 것.
  • 무한한 계산 능력을 지닌 공모 공격자에 대비해 정보 이론적 프라이버시를 제공하는 것.
  • 참가 당사자 수에 비례해 확장 가능한 효율적인 탈중앙화 학습을 가능하게 하는 것.

제안 방법

  • 클라이언트들이 샤미어의 비밀 공유를 사용해 개인 데이터셋을 비밀 공유하여 분산 계산을 가능하게 한다.
  • 프레임워크는 코딩 이론 원리를 활용해 데이터셋을 인코딩 형태로 변환하여, 인코딩된 데이터를 기반으로 안전하게 기울기 계산을 수행할 수 있도록 한다.
  • 훈련은 인코딩된 데이터를 기반으로 분산 경사 하강법을 통해 진행되며, 비인코딩된 데이터와 동일한 계산 구조를 유지한다.
  • 비선형성을 안전하고 확장 가능한 방식으로 지원하기 위해 다항식 연산과 MPC 우수한 근사치(예: 시그모이드 함수)를 활용한다.
  • 계산 부하가 N명의 당사자 간에 분산되며, 각 클라이언트는 총 작업량의 일부분을 처리함으로써 개별 클라이언트의 계산 시간을 줄인다.
  • 추가적인 클라이언트를 도입함으로써 공모 저항 수준 T를 높이거나 개별 클라이언트의 부하를 감소시킬 수 있도록 프라이버시와 병렬 처리를 균형 잡는다.

실험 결과

연구 질문

  • RQ1정보 이론적 프라이버시를 유지하면서도 4명 초과의 당사자로 확장 가능한 완전히 탈중앙화된 프레임워크는 가능한가?
  • RQ2코딩 이론의 통합이 보안 기반 머신러닝에서 확장성 향상과 통신 및 계산 오버헤드 감소에 어떻게 기여하는가?
  • RQ3기존 MPC 기반 벤치마크 대비 훈련 시간에서의 속도 향상은 어느 정도 달성 가능한가?
  • RQ4프라이버시(공모 저항 수준 T)와 병렬 처리(클라이언트 당 계산 부하) 간의 트레이드오프가 시스템 성능에 어떤 영향을 미치는가?
  • RQ5강력한 프라이버시 보장을 유지하면서도 기존 로지스틱 회귀와 비교해 모델 정확도를 유사하게 유지할 수 있는가?

주요 결과

  • COPML은 CIFAR-10 및 GISETTE 데이터셋에서 최신 MPC 기반 프로토콜 대비 최대 16.4배의 훈련 시간 단축을 달성한다.
  • 프레임워크는 기존 로지스틱 회귀와 유사한 모델 정확도를 유지함으로써, 프라이버시 보장 훈련이 예측 성능에 악영향을 주지 않음을 입증한다.
  • 비밀 공유와 코딩 이론의 사용 덕분에, 무한한 계산 능력을 지닌 T명의 공모 당사자에 대비해 정보 이론적 프라이버시가 보장된다.
  • 참가 당사자 수 N이 증가함에 따라, 개별 클라이언트의 계산 부하는 O(md²/N) 비율로 감소하여 상당한 병렬 처리 이점을 제공한다.
  • 인코딩 비용은 O(mdN) 비율로 증가하며, 이는 소규모 데이터셋에서는 지배적인 요소가 되어 저데이터 환경에서의 확장성에 제약을 가한다.
  • 데이터셋 크기에 따라 효과적으로 확장되며, 데이터 차원이 증가할수록 부하 분배가 더 우수해져 더 높은 속도 향상을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.