QUICK REVIEW

[논문 리뷰] Chiron: Privacy-preserving Machine Learning as a Service

Tyler Hunt, Congzheng Song|arXiv (Cornell University)|2018. 03. 15.

Adversarial Robustness in Machine Learning참고 문헌 20인용 수 177

한 줄 요약

Chiron은 SGX 인클레이브와 Ryoan 샌드박스를 사용하여 공급자의 코드와 데이터를 한정시키고 학습 데이터를 공개하지 않고 외주 서비스에서 ML 모델을 학습할 수 있게 한다. 또한 모델 기밀성과 데이터 프라이버시를 유지하면서 매개변수 서버를 통한 분산 학습을 지원한다.

ABSTRACT

Major cloud operators offer machine learning (ML) as a service, enabling customers who have the data but not ML expertise or infrastructure to train predictive models on this data. Existing ML-as-a-service platforms require users to reveal all training data to the service operator. We design, implement, and evaluate Chiron, a system for privacy-preserving machine learning as a service. First, Chiron conceals the training data from the service operator. Second, in keeping with how many existing ML-as-a-service platforms work, Chiron reveals neither the training algorithm nor the model structure to the user, providing only black-box access to the trained model. Chiron is implemented using SGX enclaves, but SGX alone does not achieve the dual goals of data privacy and model confidentiality. Chiron runs the standard ML training toolchain (including the popular Theano framework and C compiler) in an enclave, but the untrusted model-creation code from the service operator is further confined in a Ryoan sandbox to prevent it from leaking the training data outside the enclave. To support distributed training, Chiron executes multiple concurrent enclaves that exchange model parameters via a parameter server. We evaluate Chiron on popular deep learning models, focusing on benchmark image classification tasks such as CIFAR and ImageNet, and show that its training performance and accuracy of the resulting models are practical for common uses of ML-as-a-service.

연구 동기 및 목표

데이터 소유자가 외주 인프라에서 ML 모델을 학습하되 학습 데이터를 서비스 공급자에게 노출하지 않도록 한다.
모델 세부 정보를 비공개로 유지하여 모델의 기밀성을 보존하고 사용자에 대한 노출을 제한한다.
데이터 프라이버시를 보장하면서 매개변수 서버를 통한 분산 동시 학습을 지원한다.
ML 도구체인과 학습 과정에 대해 검증 가능하고 하드웨어 지원 실행 환경을 제공한다.

제안 방법

보호된 환경 내에서 일반 ML 도구체인(Theano)을 실행하기 위해 SGX 인클레이브를 사용한다.
데이터 누출을 방지하기 위해 서비스 공급자의 신뢰할 수 없는 코드를 Ryoan 샌드박스로 제약한다.
모델 설계(공급자에게 독점적)와 모델 학습(일반 프로세스)을 분리한다.
고정 속도, 데이터 비의존적 교환이 이뤄지는 매개변수 서버를 통해 여러 인클레이브 간의 분산 학습을 조정한다.
사용자 제어 쿼리 인클레이브와 키를 통해서만 액세스할 수 있는 암호화된 학습 모델을 출력한다.

실험 결과

연구 질문

RQ1외주 인프라에서 ML 모델을 학습할 때 학습 데이터의 프라이버시는 어떻게 보장될 수 있는가?
RQ2신뢰할 수 없는 공급자 코드를 학습 데이터를 외부로 유출하지 못하도록 제한하면서도 유연한 모델 설계와 학습을 허용할 수 있는가?
RQ3일반 벤치마크에서 하드웨어 기반 인클레이브와 샌드박싱이 학습 성능과 모델 정확도에 어떤 영향을 미치는가?
RQ4데이터를 외부로 누출하지 않으면서 여러 인클레이브 간의 분산 ML 학습을 어떻게 안전하게 조정할 수 있는가?
RQ5CIFAR와 ImageNet 같은 실제 벤치마크에서 ML-서비스로서의 Chiron 사용이 보안성과 실용성에 주는 시사점은 무엇인가?

주요 결과

Chiron은 데이터 기밀성과 사용자의 블랙박스 모델 접근을 유지하면서 외주 인프라에서의 학습을 가능하게 한다.
SGX 인클레이브와 Ryoan 샌드박스의 조합은 인클레이브 내부에서 표준 ML 도구체인을 실행하는 동시에 신뢰할 수 없는 공급자 코드를 제한한다.
인클레이브 간의 보안된 고정 속도 교환을 갖춘 매개변수 서버를 통해 분산 학습이 지원된다.
이 접근 방식은 CIFAR 및 ImageNet과 같은 표준 딥러닝 벤치마크에서 수렴 시간, 확장성, 정확도에 초점을 두고 평가된다.
평가된 설정 내에서 일반적인 ML-서비스 사용 사례에 대해 모델 학습과 추론이 여전히 실용적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.