Skip to main content
QUICK REVIEW

[논문 리뷰] Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data

Nicolas Papernot, Martı́n Abadi|arXiv (Cornell University)|2016. 10. 18.
Privacy-Preserving Technologies in Data인용 수 320
한 줄 요약

이 논문은 비공개 지식 이전 프레임워크인 PATE를 소개합니다. 이는 서로 다른 민감한 데이터에 대해 학습된 교사들(교사 앙상블)을 사용하여 비표면 데이터를 라벨링하고 학생 모델을 훈련시키며, 강력한 차등 프라이버시 보장과 반지도학습으로 높은 유틸리티를 유지합니다.

ABSTRACT

Some machine learning applications involve training data that is sensitive, such as the medical histories of patients in a clinical trial. A model may inadvertently and implicitly store some of its training data; careful analysis of the model may therefore reveal sensitive information. To address this problem, we demonstrate a generally applicable approach to providing strong privacy guarantees for training data: Private Aggregation of Teacher Ensembles (PATE). The approach combines, in a black-box fashion, multiple models trained with disjoint datasets, such as records from different subsets of users. Because they rely directly on sensitive data, these models are not published, but instead used as "teachers" for a "student" model. The student learns to predict an output chosen by noisy voting among all of the teachers, and cannot directly access an individual teacher or the underlying data or parameters. The student's privacy properties can be understood both intuitively (since no single teacher and thus no single dataset dictates the student's training) and formally, in terms of differential privacy. These properties hold even if an adversary can not only query the student but also inspect its internal workings. Compared with previous work, the approach imposes only weak assumptions on how teachers are trained: it applies to any model, including non-convex models like DNNs. We achieve state-of-the-art privacy/utility trade-offs on MNIST and SVHN thanks to an improved privacy analysis and semi-supervised learning.

연구 동기 및 목표

  • 민감한 데이터의 학습 데이터에 대해 강력한 프라이버시 보장을 제공하면서 민감한 데이터에 대해 높은 유틸리티를 갖는 모델을 학습합니다.
  • 기저 학습 알고리즘에 독립적인 블랙박스 지식 이전 프레임워크를 개발합니다.
  • 학생의 교사 지식 접근을 제한하고 반지도학습을 통해 프라이버시 손실을 줄입니다.
  • PATE-G( GAN 기반의 반지도학습 변형)를 탐색하여 프라이버시-유틸리티 균형을 더욱 개선합니다.

제안 방법

  • 민감한 데이터를 n개의 서로 불가분 부분으로 분할하고 각 부분에서 독립적인 교사를 훈련시켜 교사 앙상블를 구성합니다.
  • 무표본 데이터에 대한 교사 예측을 라플라시안 노이즈로 집계하여 프라이버시를 보호하고, 노이즈를 제어하면서 상위 투표를 선택합니다.
  • 노이즈가 추가된 라벨링된 데이터와 미라벨 데이터가 있는 공개 데이터에서 학생을 훈련시켜 프라이버시 보존 지식 이전을 가능하게 합니다.
  • 제한된 라벨에 대해 성능을 향상시키는 반지도학습을 위해 GAN(생성적 적대적 네트워크)을 적용합니다(PATE-G).
  • 전체 과정의 차등 프라이버시 보장을 분석하고 경계(Epsilon, Delta)를 계산하기 위해 모먼트 계정 프레임워크를 적용합니다.
  • 교사 합의가 강할 때 경계가 좁아지는 데이터 의존적 프라이버시 분석을 포함합니다.

실험 결과

연구 질문

  • RQ1민감한 데이터에서 학습에 대해 프라이버시를 보장하는 비공개 교사 앙상블이 학습을 가능하게 할 수 있습니까?
  • RQ2반지도학습과 GAN을 어떻게 통합하여 프라이버시를 보존하면서 유틸리티를 극대화할 수 있습니까?
  • RQ3PATE 및 PATE-G 하에서 MNIST와 SVHN의 실용적 프라이버시-유틸리티 트레이드는 무엇입니까?
  • RQ4교사의 수와 합의 격차가 프라이버시 손실과 정확도에 어떤 영향을 줍니까?

주요 결과

  • PATE 접근 방식은 MNIST에서 (ε=2.04, δ=1e-5, 98.00% 정확도) 및 SVHN에서 (ε=8.19, δ=1e-6, 90.66% 정확도) 의미 있는 차등 프라이버시 보장을 유지하며 높은 정확도를 보입니다.
  • MNIST와 SVHN에서 교사 예측의 집계는 각각 93.18%와 87.79%의 정확도에 도달하며, 250명의 교사를 사용할 때 질의당 프라이버시 비용 ε=0.05를 가집니다.
  • 반지도학습 GAN 기반 훈련(PATE-G)을 사용하면 필요한 라벨링 질의 수가 줄어들고 기존 방법보다 프라이버시-유틸리티 트레이드를 개선합니다.
  • 비프라이버스 기준선에 비해 PATE는 경쟁력 있는 정확도를 달성합니다(MNIST 비프라이버스 99.18% 대 프라이버시 포함 98.00%; SVHN 비프라이버스 92.80% 대 프라이버시 포함 90.66%).
  • 프레임워크는 아키텍처에 구애받지 않으며 비볼록 모델에도 적용 가능해 넓은 범위의 프라이버시 보존 학습 전략을 제공합니다.
  • 부록 결과는 의료 데이터와 같은 다른 데이터 유형에서도 프라이버시를 보호할 수 있음을 시사합니다(랜덤 포레스트).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.