[논문 리뷰] SecureBoost: A Lossless Federated Learning Framework
SecureBoost는 연합 학습에서 수직으로 분할된 데이터에 대한 무손실의 프라이버시 보존 그래디언트 부스팅 프레임워크를 제시하며, 개인 데이터를 유출하지 않으면서 중앙 집중식 수준의 정확도를 달성합니다.
The protection of user privacy is an important concern in machine learning, as evidenced by the rolling out of the General Data Protection Regulation (GDPR) in the European Union (EU) in May 2018. The GDPR is designed to give users more control over their personal data, which motivates us to explore machine learning frameworks for data sharing that do not violate user privacy. To meet this goal, in this paper, we propose a novel lossless privacy-preserving tree-boosting system known as SecureBoost in the setting of federated learning. SecureBoost first conducts entity alignment under a privacy-preserving protocol and then constructs boosting trees across multiple parties with a carefully designed encryption strategy. This federated learning system allows the learning process to be jointly conducted over multiple parties with common user samples but different feature sets, which corresponds to a vertically partitioned data set. An advantage of SecureBoost is that it provides the same level of accuracy as the non-privacy-preserving approach while at the same time, reveals no information of each private data provider. We show that the SecureBoost framework is as accurate as other non-federated gradient tree-boosting algorithms that require centralized data and thus it is highly scalable and practical for industrial applications such as credit risk analysis. To this end, we discuss information leakage during the protocol execution and propose ways to provably reduce it.
연구 동기 및 목표
- 연합 설정에서 수직으로 분할된 데이터에 대해 프라이버시를 보호하는 머신러닝을 정의한다.
- 공통 샘플이 있지만 특징이 다른 여러 파티에 걸쳐 작동하는 무손실 그래디언트 부스팅 프레임워크를 개발한다.
- 개인 데이터를 노출하지 않고 트리를 학습하기 위해 보안 데이터 정렬 및 암호화된 그래디언트 집계를 제안한다.
- 정보 누출을 분석하고 정확도를 유지하면서 이를 입증적으로 줄이는 방법을 논의한다.
제안 방법
- 레이블을 보유한 활성 파티와 특징을 보유한 비활성 파티가 있는 수직 연합 학습 문제를 형식적으로 정의한다.
- 개인정보 보호 프로토콜을 사용하여 각 파티 간 데이터 샘플을 프라이버시 제약 하에 정렬한다.
- Paillier 암호화를 사용하여 그래디언트 통계(g_i, h_i)를 암호화하고 이를 집계하여 최적 분할을 찾음으로써 공유된 그래디언트 부스팅 모델을 학습한다.
- 활성 파티가 집계된 통계를 복호화하여 글로벌 분할을 결정하는 동안 비활성 파티는 암호화된 데이터에서 로컬로 계산한다.
- 보안 예측(추론)을 가능하게 하기 위해 분할 결정 정보와 조회 테이블을 비활성 및 활성 파티에 저장한다.
- 동일한 초기화 및 하이퍼파라미터 하에 연합 모델이 중앙집중식 비프라이버시 모델과 동일한 손실을 갖는 것을 보임으로써 무손실을 증명한다.
실험 결과
연구 질문
- RQ1수직으로 분할된 데이터를 연합 학습에서 다수의 파티에 걸쳐 어떻게 개인 정보를 보호하며 정렬할 수 있는가?
- RQ2암호화된 그래디언트 통계로 여러 파티에 걸쳐 프라이버시를 보호하고 무손실 방식으로 그래디언트 부스팅 모델을 학습할 수 있는가?
- RQ3학습 및 추론 중 침해/누출 프로파일은 어떠하며, 정확도를 해치지 않으면서 이를 어떻게 줄일 수 있는가?
- RQ4SecureBoost가 중앙집중식 비연합 그래디언트 부스팅 방법과 비교할 만한 정확도를 달성하는가?
주요 결과
- 프레임워크는 무손실이다: SecureBoost는 동일한 초기화와 하이퍼파라미터에서 중앙집중식 비프라이버시 모델의 정확도와 일치한다.
- 보안 분석은 잠재적 누출을 보이며, 활성 파티가 인스턴스 공간 및 분할 후보에 대해 더 많이 학습할 수 있는 반면; 누출 감소 변형(RL-SecureBoost)은 누출을 완화한다.
- 두 개의 신용 데이터세트(Credit 1 및 Credit 2)에 대한 실험은 비연합 방법과 비슷한 성능을 보이며, RL-SecureBoost는 누출을 줄이면서 정확도를 보존한다.
- 확장성 분석은 GBDT 및 XGBoost와 유사한 수렴 곡선을 나타내며 실행 시간은 트리 깊이와 데이터 크기에 비례하여 대략 선형으로 증가한다.
- 이 프레임워크는 신용 위험 분석과 같은 산업 과제에 실용적으로 적용 가능하며, 연합 학습용 FATE 프로젝트에 구현되어 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.