QUICK REVIEW

[논문 리뷰] Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption

Stephen Hardy, Wilko Henecka|arXiv (Cornell University)|2017. 11. 29.

Privacy-Preserving Technologies in Data참고 문헌 29인용 수 429

한 줄 요약

이 논문은 두 공급자가 보유한 수직으로 분할된 데이터에 대해 프라이버시를 유지하는 3자 솔루션을 제시합니다. 두 공급자는 프라이버시를 유지하는 엔티티 해상도와 더해 쓰기 가능한 가법 동형 암호화를 사용하여 공동 로지스틱 모델을 학습하고, 엔티티 해상도 오류가 학습에 미치는 영향을 분석합니다.

ABSTRACT

Consider two data providers, each maintaining private records of different feature sets about common entities. They aim to learn a linear model jointly in a federated setting, namely, data is local and a shared model is trained from locally computed updates. In contrast with most work on distributed learning, in this scenario (i) data is split vertically, i.e. by features, (ii) only one data provider knows the target variable and (iii) entities are not linked across the data providers. Hence, to the challenge of private learning, we add the potentially negative consequences of mistakes in entity resolution. Our contribution is twofold. First, we describe a three-party end-to-end solution in two phases ---privacy-preserving entity resolution and federated logistic regression over messages encrypted with an additively homomorphic scheme---, secure against a honest-but-curious adversary. The system allows learning without either exposing data in the clear or sharing which entities the data providers have in common. Our implementation is as accurate as a naive non-private solution that brings all data in one place, and scales to problems with millions of entities with hundreds of features. Second, we provide what is to our knowledge the first formal analysis of the impact of entity resolution's mistakes on learning, with results on how optimal classifiers, empirical losses, margins and generalisation abilities are affected. Our results bring a clear and strong support for federated learning: under reasonable assumptions on the number and magnitude of entity resolution's mistakes, it can be extremely beneficial to carry out federated learning in the setting where each peer's data provides a significant uplift to the other.

연구 동기 및 목표

두 공급자가 보유한 수직으로 분할된 데이터에서 원시 데이터나 공통 엔티티 매핑을 노출하지 않고 학습의 필요성을 촉진한다.
식별자를 비공개로 유지하면서 공급자 간의 레코드를 정렬하는 프라이버시 유지 엔티티 해상도 프로토콜을 개발한다.
가법 동형 암호화와 제3자 조정자(coordinator)를 사용하여 안전한 연합 로지스틱 회귀를 가능하게 한다.
엔티티 해상도 실수(오류)가 최적 분류기, 손실, 마진 및 일반화에 미치는 영향에 대한 형식적 분석을 제공한다.
수백만 개의 엔티티와 수백 개의 특징을 가진 데이터 세트에 대한 확장성을 시연하면서도 중앙 집중식 비개인 솔루션에 가까운 정확도를 유지한다.

제안 방법

프라이버시 유지 엔티티 해상도와 안전한 로지스틱 회기를 실행하는 조정자(C)를 포함한 엔드-투-엔드 삼자 파이프라인을 제안한다.
암호학적 장기 키(CLKs)와 Bloom-filter 기반 인코딩을 사용하여 Dice 유사도를 통해 파티 간 엔티티를 비공개로 연결한다.
원시 데이터를 노출하지 않고 그래디언트와 업데이트를 계산하기 위해 가법 동형 암호화 스킴(예: Paillier)을 사용하여 학습 과정을 암호화한다.
테일러 급수 기반 손실(Taylor loss) 근사를 채택하여 암호화된 그래디언트 계산과 보류 손실을 가능하게 한다.
개인 연결 정보를 공개하지 않으면서 엔티티 해상도 결과를 처리하기 위해 학습 과정에 암호화된 마스크를 도입한다.
수직 분할된 특징에 대해 안전한 연합 SGD(특히 SAG에 초점을 둔)를 구현하여 조정자에게는 암호화된 교환만 전송되도록 한다.

실험 결과

연구 질문

RQ1프라이버시를 유지하는 엔티티 해상도가 중앙 집중식 비개인 솔루션과 비교하여 공동으로 학습된 모델의 정확도에 어떤 영향을 미치는가?
RQ2엔티티 해상도 실수 발생 시 최적 분류기의 편차에 대해 어떤 형식적 경계가 설정될 수 있는가?
RQ3특히 대형 마진 예제에 대해 엔티티 해상도 오류에 대해 학습된 분류기가 강건한 조건은 무엇인가?
RQ4엔티티 해상도 오류 하에서 안전한 연합 로지스틱 회귀의 수렴 특성과 일반화 거동은 어떠한가?
RQ5데이터 파트너들의 특징이 서로를 보완할 때 제안된 시스템은 수백만 개의 엔티티와 수백 개의 특징을 가진 데이터 세트에 대해 프라이버시 보장을 유지하면서 얼마나 확장 가능한가?

주요 결과

종단-대-종단 시스템은 모든 데이터를 모으는 순진한 비공개 솔루션만큼의 정확도로 학습을 달성하고 대형 문제로 확장된다.
이 작업은 엔티티 해상도 실수가 학습에 미치는 영향에 대한 최초의 형식적 분석을 제공하며, 분류기 편차 및 경험적 손실과 일반화에 미치는 영향에 대한 한계를 포함한다.
합리적인 가정하에 대형 마진 예제는 엔티티 해상도 오류에도 불구하고 올바르게 분류되는 강건성을 보인다.
엔티티 해상도 실수가 작을 경우 일반화에는 큰 영향이 없고, 경험적 손실은 최적 분류기, 해상도 오류, 클래스 통계의 세 가지 페널티에 따라 수렴한다.
이 접근법은 데이터 파트너의 특징이 서로를 보완할 때 분류 정확도에 상당한 상승을 제공하여 프라이버시를 유지하는 협업의 정당성을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.