QUICK REVIEW

[논문 리뷰] Learning Privately from Multiparty Data

Jihun Hamm, Paul Cao|arXiv (Cornell University)|2016. 02. 10.

Privacy-Preserving Technologies in Data참고 문헌 20인용 수 59

한 줄 요약

이 논문은 여러 당사자 간에 비밀 데이터를 공유하지 않고 국소적으로 훈련된 모델들로부터 전역적으로 정확한, 차별적(private) 분류기를 훈련하기 위한 새로운 방법을 제안한다. 보조 비라벨 데이터에 대해 앙상블 기반 소프트 레이블을 사용하고, 클래스 확률에 의해 가중된 위험을 최소화함으로써, 이 방법은 $O(\epsilon^{-2}M^{-2})$의 일반화 오차 경계를 달성하여, 파티 수 $M$이 클 경우 성능 손실를 최소화하면서 강력한 프라이버시를 확보한다.

ABSTRACT

Learning a classifier from private data collected by multiple parties is an important problem that has many potential applications. How can we build an accurate and differentially private global classifier by combining locally-trained classifiers from different parties, without access to any party's private data? We propose to transfer the `knowledge' of the local classifier ensemble by first creating labeled data from auxiliary unlabeled data, and then train a global $ε$-differentially private classifier. We show that majority voting is too sensitive and therefore propose a new risk weighted by class probabilities estimated from the ensemble. Relative to a non-private solution, our private solution has a generalization error bounded by $O(ε^{-2}M^{-2})$ where $M$ is the number of parties. This allows strong privacy without performance loss when $M$ is large, such as in crowdsensing applications. We demonstrate the performance of our method with realistic tasks of activity recognition, network intrusion detection, and malicious URL detection.

연구 동기 및 목표

다양한 당사자가 소유한 비밀 데이터로부터 개별 데이터를暴露하지 않고도 협업적으로 전역 분류기를 훈련할 수 있도록 하는 것.
수치형이 아닌 모델에 적용 불가능하고 다양한 분류기 유형 간의 유연성이 떨어지는 파rameter averaging의 한계를 해결하는 것.
특히 국소 모델이 약하거나 다수일 경우 발생하는 차별적 프라이버시에 의한 성능 저하를 줄이는 것.
개별 기록뿐만 아니라 모든 데이터 샘플에 대해 강력한 프라이버시 보장을 제공하는 것($\epsilon$-차별적 프라이버시).
혼합된 분류기 유형과 캐스팅센싱과 같은 대규모 탈중앙화된 학습 환경을 지원하는 확장 가능하고 민첩한 프레임워크를 개발하는 것.

제안 방법

비밀 데이터에 접근하지 않고 여러 당사자로부터 국소적으로 훈련된 분류기를 수집한다.
공유된 보조 비라벨 데이터 세트에 대해 국소 분류기의 앙상블을 사용하여 소프트 레이블(클래스 확률)을 생성함으로써 원시 데이터 폭로 없이 지식을 전달한다.
앙상블이 추정한 클래스 확률에 의해 가중된 새로운 위험 함수를 제안하여 개인 분류기 투표에 대한 민감도를 감소시킨다.
최종 전역 분류기에서 $\epsilon$-차별적 프라이버시를 보장하기 위해 경험 위험 최소화 과정에 출력 편향을 적용한다.
신뢰할 수 있는 집계자(Trusted Aggregator)를 활용하여 국소 모델을 수집하고, 소프트 레이블을 생성하며, 차별적 프라이버시 최적화를 통해 비밀 유지된 전역 모델을 훈련한다.
클래스 확률 추정의 안정성을 활용하여 다수결 투표보다 민감도가 낮은 위험 함수를 설계함으로써 프라이버시-정확도 트레이드오프를 향상시킨다.

실험 결과

연구 질문

RQ1비밀 데이터를 공유하지 않고 국소적으로 훈련된 모델들로부터 전역적으로 정확하고 차별적 프라이버시를 확보한 분류기를 훈련시킬 수 있는가?
RQ2다수결 투표에 비해 민감도를 낮추고 프라이버시 하에서 성능을 유지하기 위해 앙상블 기반 레이블 생성에서 다수결 투표를 어떻게 개선할 수 있는가?
RQ3앙상블 지식 전달을 통해 훈련된 차별적 프라이버시 전역 분류기의 일반화 오차 경계는 무엇이며, 파티 수 $M$에 따라 어떻게 스케일링되는가?
RQ4제안된 방법은 활동 인식, 네트워크 침입 탐지, 악성 URL 탐지와 같은 실제 응용 분야에서 강력한 프라이버시 제약 조건 하에서도 높은 정확도를 유지할 수 있는가?
RQ5클래스 확률에 기반한 제안된 위험 가중치 방법이 전통적인 다수결 투표에 비해 프라이버시-정확도 트레이드오프 측면에서 우수한 성능을 보이는가?

주요 결과

제안된 방법은 비밀이 아닌 솔루션 대비 $O(\epsilon^{-2}M^{-2})$의 일반화 오차 경계를 달성하여, 파티 수 $M$이 증가할수록 최적 성능에 빠르게 수렴함을 나타낸다.
1000명의 파티와 파티당 6개의 샘플을 가진 활동 인식 작업에서 소프트 레이블 방법은 $1/\epsilon = 0.1$일 때 테스트 정확도 76%를 달성하였으며, 개별 분류기(47%)와 다수결 투표를 모두 초월하였다.
20,000명의 파티가 참여한 네트워크 침입 탐지 작업에서는 소프트 레이블 방법이 비밀이 없는 배치 모델 수준의 성능을 유지하며 $1/\epsilon \approx 10$까지 유지되었으며, 평균 및 다수결 투표 방법보다 뚜렷이 뛰어났다.
파티당 9개의 샘플만 존재하는 악성 URL 탐지 작업에서도 소프트 레이블 방법은 강력한 성능을 보였으며, 저자료 환경에서도 강인함을 입증하였다.
다수결 투표는 개인 분류기 투표에 매우 민감하여, 특히 낮은 프라이버시 예산에서 차별적 프라이버시 하에서 효과적으로 기능하지 못함을 발견하였다.
앙성 클래스 확률에 기반한 제안된 위험 가중치 방법은 결정론적 다수결 투표보다 안정적이고 민감도가 낮은 대안을 제공하여 프라이버시-정확도 트레이드오프를 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.