QUICK REVIEW

[논문 리뷰] Privacy-Preserving Personal Model Training

Sandra Servia-Rodríguez, Liang Wang|arXiv (Cornell University)|2017. 03. 01.

Privacy-Preserving Technologies in Data참고 문헌 40인용 수 1

한 줄 요약

이 논문은 개인 데이터를 원격 서버로 전송할 필요 없이 사용자 장치의 로컬에서 기계 학습 계산을 수행하도록 전환하는 프라이버시 보장 개인 모델 훈련 프레임워크를 제안한다. 전이 학습을 활용해 공유 모델을 개인 데이터에 맞게 미세 조정함으로써 정확도를 향상시키며, 자원이 제한된 장치인 라즈베리 파이 3에서도 구현 가능함을 입증한다.

ABSTRACT

Many current Internet services rely on inferences from models trained on user data. Commonly, both the training and inference tasks are carried out using cloud resources fed by personal data collected at scale from users. Holding and using such large collections of personal data in the cloud creates privacy risks to the data subjects, but is currently required for users to benefit from such services. We explore how to provide for model training and inference in a system where computation is pushed to the data in preference to moving data to the cloud, obviating many current privacy risks. Specifically, we take an initial model learnt from a small set of users and retrain it locally using data from a single user. We evaluate on two tasks: one supervised learning task, using a neural network to recognise users' current activity from accelerometer traces; and one unsupervised learning task, identifying topics in a large set of documents. In both cases the accuracy is improved. We also analyse the robustness of our approach against adversarial attacks, as well as its feasibility by presenting a performance evaluation on a representative resource-constrained device (a Raspberry Pi).

연구 동기 및 목표

클라우드 기반 기계 학습 서비스에서 중앙 집중식 데이터 수집으로 인한 증가하는 프라이버시 우려를 해결하기 위해.
신뢰할 수 없는 클라우드 환경으로의 개인 데이터 전송 없이도 정확한 모델 훈련을 가능하게 하기 위해.
라즈베리 파이와 같은 저자원 장치에서 개인 모델 훈련이 효율적으로 수행될 수 있음을 입증하기 위해.
감독 학습(활동 인식)과 비감독 학습(주제 모델링) 작업 모두에서 접근법을 평가하기 위해.
에지 장치에서의 타당성과 악성 공격에 대한 내성에 대해 평가하기 위해.

제안 방법

두 단계 훈련 프로세스: 첫 번째 단계에서 공유 모델은 클라우드에서 소규모 사용자 데이터 세트로 훈련되고, 두 번째 단계에서 이 모델은 각 사용자의 개인 데이터로 현지에서 재훈련된다.
로컬 데이터가 제한적인 경우 성능을 향상시키기 위해 전이 학습을 활용하며, 사전 훈련된 모델을 시작점으로 사용한다.
감독 학습에는 신경망을 적용하고, WISDM 데이터셋을 사용하며, 비감독 주제 모델링에는 LDA(은닉 딜리클레 분포)를 사용하고, 위키피디아 및 NIPS 데이터셋을 활용한다.
데이터 유출을 방지하기 위해 인fer와 현지 재훈련을 모두 기기 내에서 수행한다.
데이터가 사용자 기기 외부로 이동하지 않는 프라이버시 보장 패러다임을 적용하여 공격 표면과 오용 위험을 감소시킨다.
실제 적용 가능성 평가를 위해 라즈베리 파이 3 모델 B에서 성능 및 내성성을 평가한다.

실험 결과

연구 질문

RQ1자원이 제한된 장치인 라즈베리 파이에서 성능에 손상이 가지 않고도 개인 모델 훈련을 효과적으로 수행할 수 있는가?
RQ2공유 모델을 현지에서 재훈련하는 것이 로컬 데이터로만 훈련하는 것 또는 기존 클라우드 기반 방법보다 정확도를 향상시키는가?
RQ3프라이버시 보장 환경에서 악성 공격에 대해 제안된 방법이 얼마나 내성적인가?
RQ4중앙 집중식 데이터 수집과 관련된 프라이버시 위험을 어느 정도 줄일 수 있는가?
RQ5이 방법이 감독 학습과 비감독 학습을 포함한 다양한 학습 작업에 일반화될 수 있는가?

주요 결과

감독 학습(활동 인식)과 비감독 학습(주제 모델링) 작업 모두에서, 공유 모델의 현지 재훈련이 로컬 데이터로만 훈련된 모델보다 정확도를 향상시켰다.
라즈베리 파이 3 모델 B에서의 추론 및 재훈련 시간이 타당하게 확보되어 저전력 에지 장치에서의 구현 가능성을 입증했다.
제안된 방법은 악성 공격에 저항성이 있었으며, 실제 환경 배포 시나리오에서의 내성성을 시사했다.
개인 데이터를 기기 내에 유지함으로써, 데이터 유출 및 무단 데이터 사용과 관련된 프라이버시 위험을 크게 감소시켰다.
사용자가 원시 데이터를 클라우드 제공업체나 제3자와 공유할 필요 없이 개인 맞춤형 정확한 기계 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.