QUICK REVIEW

[논문 리뷰] Learning from Mixtures of Private and Public Populations

Raef Bassily, Shay Moran|arXiv (Cornell University)|2020. 08. 01.

Statistical Methods and Inference인용 수 5

한 줄 요약

이 논문은 비공개(민감한) 및 공개(비민감한) 서브-집단으로 구성된 혼합 데이터에서 학습하는 새로운 학습 모델을 제안한다. 이 모델은 비공개 부분에 대해서만 개인정보 보호 제약 조건을 적용한다. 비공개 데이터와 공개 데이터의 분포 간 구조적 차이를 활용함으로써, 레이블과 관련된 개인정보 상태일지라도 ℝᵈ 내 선형 분류기의 학습 샘플 복잡도가 비공개 학습(PAC 학습)과 유사한 수준을 유지함을 보여준다.

ABSTRACT

We initiate the study of a new model of supervised learning under privacy constraints. Imagine a medical study where a dataset is sampled from a population of both healthy and unhealthy individuals. Suppose healthy individuals have no privacy concerns (in such case, we call their data public) while the unhealthy individuals desire stringent privacy protection for their data. In this example, the population (data distribution) is a mixture of private (unhealthy) and public (healthy) sub-populations that could be very different. Inspired by the above example, we consider a model in which the population $\mathcal{D}$ is a mixture of two sub-populations: a private sub-population $\mathcal{D}_{\sf priv}$ of private and sensitive data, and a public sub-population $\mathcal{D}_{\sf pub}$ of data with no privacy concerns. Each example drawn from $\mathcal{D}$ is assumed to contain a privacy-status bit that indicates whether the example is private or public. The goal is to design a learning algorithm that satisfies differential privacy only with respect to the private examples. Prior works in this context assumed a homogeneous population where private and public data arise from the same distribution, and in particular designed solutions which exploit this assumption. We demonstrate how to circumvent this assumption by considering, as a case study, the problem of learning linear classifiers in $\mathbb{R}^d$. We show that in the case where the privacy status is correlated with the target label (as in the above example), linear classifiers in $\mathbb{R}^d$ can be learned, in the agnostic as well as the realizable setting, with sample complexity which is comparable to that of the classical (non-private) PAC-learning. It is known that this task is impossible if all the data is considered private.

연구 동기 및 목표

비공개 및 공개 데이터 분포의 혼합에서 학습하는 문제에 대응하기 위해, 개인정보 보호 제약 조건이 민감한 데이터에만 적용되는 상황을 다루는 것.
이전 연구에서 비공개 및 공개 데이터에 대해 동일한 데이터 분포를 가정하는 데서 비롯된 제약을 극복하기 위한 것.
비공개 예제에 대해서만 차별적 프라이버시를 유지하면서도, 비공개 학습과 유사한 샘플 복잡도를 달성하는 학습 알고리즘을 설계하는 것.
이 새로운 모델 하에서 악성 설정 및 실현 가능한 설정 모두에서 선형 분류기가 효율적으로 학습될 수 있는지 탐구하는 것.

제안 방법

모델은 두 서브-집단으로 구성된 데이터 분포 𝒟를 가정한다: 𝒟_priv (비공개, 민감한) 및 𝒟_pub (공개, 비민감한), 각각의 소스를 나타내는 프라이버시 상태 비트가 존재한다.
학습 알고리즘이 요구되는 것은 비공개 예제 𝒟_priv에 대해서만 차별적 프라이버시를 만족시키는 것일 뿐, 공개 예제 𝒟_pub에 대해서는 그렇지 않다.
이 접근법은 비공개 데이터와 공개 데이터의 분포 간 구조적 차이를 활용하며, 특히 프라이버시 상태가 타깃 레이블과 관련이 있을 경우에 유의미하다.
악성 및 실현 가능한 PAC 학습의 기법을 활용하며, 공개 데이터는 비공개로 간주하고 비공개 데이터는 차별적 프라이버시 하에 처리함으로써 혼합 분포를 다루는 데 적합하게 조정한다.
분석 결과, 비공개 및 공개 데이터가 서로 다른 분포에서 유래하더라도 샘플 복잡도가 고전적 PAC 학습과 유사하게 유지됨을 확인하였다.
이전 연구에서 흔히 사용되던 비공개 및 공개 데이터에 대해 동일한 분포를 가정하는 것에 의존하지 않음으로써, 이 모델은 더 유연한 접근을 가능하게 한다.

실험 결과

연구 질문

RQ1비공개 및 공개 서브-집단으로 구성된 데이터에서, 각각 다른 기저 분포를 가진 경우 선형 분류기가 효율적으로 학습될 수 있는가?
RQ2프라이버시 제약 조건이 데이터의 일부(비공개 서브-집단)에만 적용될 때, 차별적 프라이버시 하에서 학습의 샘플 복잡도는 어떻게 되는가?
RQ3프라이버시 상태와 타깃 레이블 간의 상관관계가 이 혼합 모델에서 비공개 학습의 가능성과 효율성에 어떤 영향을 미치는가?
RQ4비공개 학습과 유사한 샘플 복잡도를 달성할 수 있는가, 비록 비공개 데이터가 존재하더라도 이 설정에서?
RQ5기존의 비공개 학습 기법을 비공개 및 공개 데이터의 분포가 다를 경우에 비공개 및 공개 데이터의 차이를 활용하도록 어떻게 적응시킬 수 있는가?

주요 결과

제안된 모델은 비공개 및 공개 데이터가 서로 다른 분포에서 유래하더라도, ℝᵈ 내 선형 분류기의 샘플 복잡도가 고전적 비공개 PAC 학습과 유사한 수준을 유지함을 보여준다.
이 방법은 비공개 및 공개 데이터 간의 차이를 활용함으로써, 이전 연구에서 흔히 사용되던 동일한 분포 가정이 필요 없음을 입증한다.
핵심 결과는 프라이버시 상태가 타깃 레이블과 관련이 있을지라도, 비공개 서브-집단에 대해서만 차별적 프라이버시를 적용함으로써 학습이 가능하다는 것이다.
모든 데이터가 비공개로 간주될 경우의 불가능성 결과와 대비되어, 비공개 및 공개 데이터 원천을 구분함으로써 유의미한 이점을 제공한다.
분석 결과, 새로운 모델 하에서 악성 설정 및 실현 가능한 설정 모두에서 샘플 복잡도가 효율적임을 확인하였다.
이 접근법은 데이터 혼합의 구조를 적절히 활용할 경우, 민감한 데이터에 대해서만 개인정보 보호 제약 조건을 적용함으로써 샘플 복잡도에 상당한 비용을 지불하지 않아도 된다는 것을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.