Skip to main content
QUICK REVIEW

[논문 리뷰] Efficient Deep Learning on Multi-Source Private Data

Nick Hynes, Raymond Cheng|arXiv (Cornell University)|2018. 07. 17.
Privacy-Preserving Technologies in Data참고 문헌 28인용 수 78
한 줄 요약

Myelin은 다중 소스의 비공개 데이터에 대해 신뢰된 하드웨어 인클레이브를 사용하여 완전한 프라이버시-보호 학습을 가능하게 하는 딥 러닝 프레임워크로, 비공개 CPU 학습과 경쟁력 있는 성능을 달성합니다.

ABSTRACT

Machine learning models benefit from large and diverse datasets. Using such datasets, however, often requires trusting a centralized data aggregator. For sensitive applications like healthcare and finance this is undesirable as it could compromise patient privacy or divulge trade secrets. Recent advances in secure and privacy-preserving computation, including trusted hardware enclaves and differential privacy, offer a way for mutually distrusting parties to efficiently train a machine learning model without revealing the training data. In this work, we introduce Myelin, a deep learning framework which combines these privacy-preservation primitives, and use it to establish a baseline level of performance for fully private machine learning.

연구 동기 및 목표

  • 다중 비공개 소스에서 데이터가 가치 있지만 민감한 경우 프라이버시 보존 ML의 필요성을 자극한다.
  • 신뢰된 하드웨어 인클레이브와 차등 프라이버시 및 데이터-Oblivious 계산을 결합하는 시스템(Myelin)을 소개한다.
  • 실용적인 CNN 모델에서 완전한 비공개 학습의 기본 성능을 Demonstrate한다.
  • TVM으로 생성된 엔클레이브 인식 라이브러리가 일반 하드웨어에서 효율적인 비공개 학습을 가능하게 하는 방법을 보여준다.

제안 방법

  • 훈련 데이터와 모델 파라미터를 격리하기 위해 신뢰된 하드웨어 인클레이브(예: SGX)를 활용한다.
  • 기계학습 SGD에 대해 per-example 그레이디언트를 클리핑하고 모멘트 어카운트가 있는 Gaussian 메커니즘으로 가우시안 노이즈를 추가하여 차등 프라이버시를 적용한다.
  • 사이드 채널 및 타이밍 누수를 완화하기 위해 데이터-Oblivious 알고리즘과 고정 크기의 데이터 청크를 구현한다.
  • enclave 효율성을 위한 최소한의 융합 연산 라이브러리를 TVM으로 생성하고 TCB를 축소한다.
  • 계산을 스케줄링해 병렬성을 극대화하고 프라이버시 관련 단계(클립, 노이즈, 합성)를 융합해 지연 시간을 숨긴다.
  • 일반 하드웨어에서 엔클레이브를 이용한 분산형 훈련을 다중 스레딩으로 지원한다.

실험 결과

연구 질문

  • RQ1신뢰된 하드웨어를 사용한 완전한 비공개 학습이 다중 공급자(private data) 데이터에서 딥러닝 모델에 대해 실용적인 성능을 달성할 수 있는가?
  • RQ2엔클레이브 내부에서 차등 프라이버시와 데이터-Oblivious 방법을 적용할 때 정확도와 속도 간의 트레이드오프는 어떤 모습인가?
  • RQ3Myelin은 암호학적 접근법이나 다중 엔클레이브 접근과 비교해 처리량과 모델 정확도에서 어떤 차이가 있는가?
  • RQ4실무에서 DP 및 데이터-Obliviousness를 효과적으로 지원하는 아키텍처 선택(예: TVM 생성 연산자, per-example 그레이디언트 처리)은 무엇인가?

주요 결과

모델프레임워크/방법학습 최소/에폭테스트(이미지/초)테스트 정확도 또는 속도
VGG9Gazelle (HE+GC)0.0893.1
MyelinChiron (4 enclaves)6.7488.1
Myelin (1 enclave)6.6852189.5
ResNet-32Myelin11.447692.4
MobileNetSlalom (1 enclave+GPU)35.771.0
Myelin (1 enclave)35.171.0
VGG9non-private CPU (baseline)6.1289.5
Myelin(DP training)6.6884.4
ResNet-32non-private CPU (baseline)12.392.4
Myelin(DP training)12.990.8
  • VGG9 및 ResNet-32에 대한 완전한 비공개 Myelin 훈련은 비공개가 아닌 CPU 학습과 속도 및 정확도 면에서 경쟁력이 있으며, DP, 데이터-Obliviousness 및 최적화된 엔클레이브 UX 덕분이다.
  • 단일 Myelin 엔클레이브가 특정 구성에서 네 개의 Chiron 엔클레이브 분산 구성을 능가할 수 있어 엔클레이브 기반 효율성 이점을 보여준다.
  • CIFAR-10에서 Myelin으로 비공개 학습은 비공개 기준선에 근접한 테스트 정확도를 달성한다(예: VGG9 84.4% private vs 89.5% non-private; ResNet-32 90.8% private vs 92.4% non-private).
  • 개인정보를 보호하는 추론이 Myelin 내에서 MobileNet의 비공개 학습 추론과 Slalom과 같은 프라이버시 보호 추론 벤치마크와 속도에서 일치하며 정확도도 대략 비슷하다.
  • 암호화 접근법(Gazelle) 및 GPU 보강 방식(Slalom)과 비교할 때, 단일 엔클레이브 내에서 Myelin이 더 우수한 속도/정확도 트레이드오프를 보인다.
  • 결과는 일반 하드웨어에서 하드웨어 엔클레이브를 사용한 완전한 비공개 ML 성능의 벤치마인을 설정한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.