QUICK REVIEW

[논문 리뷰] Efficient Deep Learning on Multi-Source Private Data

Nick Hynes, Raymond Cheng|arXiv (Cornell University)|2018. 07. 17.

Privacy-Preserving Technologies in Data참고 문헌 28인용 수 78

한 줄 요약

Myelin은 다중 소스의 비공개 데이터에 대해 신뢰된 하드웨어 인클레이브를 사용하여 완전한 프라이버시-보호 학습을 가능하게 하는 딥 러닝 프레임워크로, 비공개 CPU 학습과 경쟁력 있는 성능을 달성합니다.

ABSTRACT

Machine learning models benefit from large and diverse datasets. Using such datasets, however, often requires trusting a centralized data aggregator. For sensitive applications like healthcare and finance this is undesirable as it could compromise patient privacy or divulge trade secrets. Recent advances in secure and privacy-preserving computation, including trusted hardware enclaves and differential privacy, offer a way for mutually distrusting parties to efficiently train a machine learning model without revealing the training data. In this work, we introduce Myelin, a deep learning framework which combines these privacy-preservation primitives, and use it to establish a baseline level of performance for fully private machine learning.

연구 동기 및 목표

다중 비공개 소스에서 데이터가 가치 있지만 민감한 경우 프라이버시 보존 ML의 필요성을 자극한다.
신뢰된 하드웨어 인클레이브와 차등 프라이버시 및 데이터-Oblivious 계산을 결합하는 시스템(Myelin)을 소개한다.
실용적인 CNN 모델에서 완전한 비공개 학습의 기본 성능을 Demonstrate한다.
TVM으로 생성된 엔클레이브 인식 라이브러리가 일반 하드웨어에서 효율적인 비공개 학습을 가능하게 하는 방법을 보여준다.

제안 방법

훈련 데이터와 모델 파라미터를 격리하기 위해 신뢰된 하드웨어 인클레이브(예: SGX)를 활용한다.
기계학습 SGD에 대해 per-example 그레이디언트를 클리핑하고 모멘트 어카운트가 있는 Gaussian 메커니즘으로 가우시안 노이즈를 추가하여 차등 프라이버시를 적용한다.
사이드 채널 및 타이밍 누수를 완화하기 위해 데이터-Oblivious 알고리즘과 고정 크기의 데이터 청크를 구현한다.
enclave 효율성을 위한 최소한의 융합 연산 라이브러리를 TVM으로 생성하고 TCB를 축소한다.
계산을 스케줄링해 병렬성을 극대화하고 프라이버시 관련 단계(클립, 노이즈, 합성)를 융합해 지연 시간을 숨긴다.
일반 하드웨어에서 엔클레이브를 이용한 분산형 훈련을 다중 스레딩으로 지원한다.

실험 결과

연구 질문

RQ1신뢰된 하드웨어를 사용한 완전한 비공개 학습이 다중 공급자(private data) 데이터에서 딥러닝 모델에 대해 실용적인 성능을 달성할 수 있는가?
RQ2엔클레이브 내부에서 차등 프라이버시와 데이터-Oblivious 방법을 적용할 때 정확도와 속도 간의 트레이드오프는 어떤 모습인가?
RQ3Myelin은 암호학적 접근법이나 다중 엔클레이브 접근과 비교해 처리량과 모델 정확도에서 어떤 차이가 있는가?
RQ4실무에서 DP 및 데이터-Obliviousness를 효과적으로 지원하는 아키텍처 선택(예: TVM 생성 연산자, per-example 그레이디언트 처리)은 무엇인가?

주요 결과

모델	프레임워크/방법	학습 최소/에폭	테스트(이미지/초)	테스트 정확도 또는 속도
VGG9	Gazelle (HE+GC)	–	0.08	93.1
Myelin	Chiron (4 enclaves)	6.74	–	88.1
Myelin (1 enclave)	–	6.68	521	89.5
ResNet-32	Myelin	11.4	476	92.4
MobileNet	Slalom (1 enclave+GPU)	–	35.7	71.0
Myelin (1 enclave)	–	35.1	–	71.0
VGG9	non-private CPU (baseline)	6.12	–	89.5
Myelin	(DP training)	6.68	–	84.4
ResNet-32	non-private CPU (baseline)	12.3	–	92.4
Myelin	(DP training)	12.9	–	90.8

VGG9 및 ResNet-32에 대한 완전한 비공개 Myelin 훈련은 비공개가 아닌 CPU 학습과 속도 및 정확도 면에서 경쟁력이 있으며, DP, 데이터-Obliviousness 및 최적화된 엔클레이브 UX 덕분이다.
단일 Myelin 엔클레이브가 특정 구성에서 네 개의 Chiron 엔클레이브 분산 구성을 능가할 수 있어 엔클레이브 기반 효율성 이점을 보여준다.
CIFAR-10에서 Myelin으로 비공개 학습은 비공개 기준선에 근접한 테스트 정확도를 달성한다(예: VGG9 84.4% private vs 89.5% non-private; ResNet-32 90.8% private vs 92.4% non-private).
개인정보를 보호하는 추론이 Myelin 내에서 MobileNet의 비공개 학습 추론과 Slalom과 같은 프라이버시 보호 추론 벤치마크와 속도에서 일치하며 정확도도 대략 비슷하다.
암호화 접근법(Gazelle) 및 GPU 보강 방식(Slalom)과 비교할 때, 단일 엔클레이브 내에서 Myelin이 더 우수한 속도/정확도 트레이드오프를 보인다.
결과는 일반 하드웨어에서 하드웨어 엔클레이브를 사용한 완전한 비공개 ML 성능의 벤치마인을 설정한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.