QUICK REVIEW

[논문 리뷰] Dancing in the dark : private multi-party machine learning in an untrusted setting

Clement Fung|arXiv (Cornell University)|2018. 01. 01.

Privacy-Preserving Technologies in Data참고 문헌 46인용 수 5

한 줄 요약

이 논문은 차별적 비밀보장과 토르를 통한 익명 통신을 사용하여 중앙 서버를 신뢰할 필요 없이 데이터 소스가 글로벌 모델에 기여할 수 있도록 하는 프라이버시 보장 다중 당사자 기계학습 시스템인 TorMentor를 제안한다. 200명의 클라이언트와 클라이언트당 14MB의 데이터로 로지스틱 회귀 모델을 65초 만에 학습시키며, 프라이버시-정확도 조율 가능한 트레이드오프를 제공한다.

ABSTRACT

The problem of machine learning (ML) over distributed data sources arises in a variety of domains. Unfortunately, today's distributed ML systems use an unsophisticated threat model: data sources must trust a central ML process. We propose a brokered learning abstraction that provides data sources with provable privacy guarantees while allowing them to contribute data towards a globally-learned model in an untrusted setting. We realize this abstraction by building on the state of the art in multi-party distributed ML and differential privacy methods to construct TorMentor, a system that is deployed as a hidden service over an anonymous communication protocol. We define a new threat model by characterizing, developing and evaluating new attacks in the brokered learning setting, along with effective defenses for these attacks. We show that TorMentor effectively protects data sources against known ML attacks while providing them with a tunable trade-off between model accuracy and privacy. We evaluate TorMentor with local and geo-distributed deployments on Azure. In an experiment with 200 clients and 14 megabytes of data per client our prototype trained a logistic regression model using stochastic gradient descent in 65 seconds.

연구 동기 및 목표

기존 분산 기계학습 시스템에서 데이터 소스가 중심 모델 트레이너를 신뢰해야 하는 프라이버시 보장의 부재 문제를 해결하기 위해.
신뢰할 수 없는 환경에서 데이터 소스에 대해 증명 가능한 프라이버시를 보장하는 브로커드 러닝 추상화를 설계하기 위해.
브로커드 러닝 위협 모델에 특화된 새로운 공격과 방어 기법을 개발하고 평가하기 위해.
프라이버시 보장, 확장성, 효율성을 지원하는 시스템(TorMentor)을 구현하고 배포하기 위해.

제안 방법

다중 당사자 분산 기계학습과 차별적 비밀보장을 기반으로 하여, 개별 데이터를 드러내지 않고 클라이언트 업데이트를 안전하게 집계할 수 있도록 한다.
토르 네트워크 상의 히든 서비스로 시스템을 배포하여 데이터 소스와 학습 브로커의 익명성을 보장한다.
모델 업데이트에 정밀하게 조절된 노이즈를 주입하는 차별적 비밀보장 메커니즘을 통합하여 개별 데이터 포인트가 프라이버시를 유지하도록 보장한다.
실제 공격을 반영한 브로커드 러닝을 위한 새로운 위협 모델을 설계하였으며, 이는 모델 역산 및 멤버십 추론 공격를 포함한다.
최소한의 통신 오버헤드로 분산 클라이언트 간에 효율적인 글로벌 모델 학습을 위해 확률적 경사 하강법(SGD)을 사용한다.
노이즈 스케일 등의 프라이버시 파라미터를 조정하여 모델 정확도와 차별적 비밀보장 간의 구성 가능한 트레이드오프를 제공한다.

실험 결과

연구 질문

RQ1중앙 집중형 집계기구를 신뢰하지 않는 데이터 소스가 기여하는 브로커드 러닝 환경에서 어떤 새로운 위협이 발생하는가?
RQ2신뢰할 수 없는 환경에서 데이터 소스를 보호하기 위해 차별적 비밀보장을 어떻게 효과적으로 분산 기계학습 시스템에 통합할 수 있는가?
RQ3실제 배포 환경에서 익명 통신(Tor)과 프라이빗 기계학습 학습을 결합할 경우 성능 오버헤드는 얼마나 되는가?
RQ4다양한 클라이언트 데이터 분포를 고려할 때, 강력한 프라이버시 보장을 유지하면서도 모델 정확도를 어떻게 유지할 수 있는가?
RQ5수백 명의 클라이언트로 확장되면서도 프라이버시와 학습 시간 효율성을 유지할 수 있는가?

주요 결과

TorMentor는 200명의 클라이언트가 각각 14MB의 데이터를 기여하여 로지스틱 회귀 모델을 65초 만에 학습시켜 지오그래픽 분산 배포 환경에서 높은 효율성을 입증했다.
차별적 비밀보장 기반으로 증명 가능한 프라이버시 보장을 제공하며, 모델 정확도와 프라이버시 손실 간의 조정 가능한 트레이드오프를 제공한다.
저자들은 브로커드 러닝 모델에 특화된 새로운 공격(예: 모델 업데이트에 대한 추론 공격)을 식별하고 평가하였으며, 효과적인 대응 조치를 설계하였다.
아마존 웨이브(Azure)에서의 배포 결과, TorMentor가 로컬 및 분산 환경 모두에서 낮은 지연 시간과 높은 확장성을 유지하는 것으로 확인되었다.
토르와 차별적 비밀보장의 통합이 모델 성능을 크게 떨어뜨리지 않아, 신뢰할 수 없는 환경에서 프라이버시 보장 다중 당사자 기계학습의 실현 가능성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.