QUICK REVIEW

[논문 리뷰] Practical Federated Gradient Boosting Decision Trees

Qinbin Li, Zeyi Wen|arXiv (Cornell University)|2019. 11. 11.

Privacy-Preserving Technologies in Data참고 문헌 25인용 수 27

한 줄 요약

이 논문은 원시 데이터를 폭 lộ하지 않고도 유사성 정보를 파티 간에 공유할 수 있도록 국소성에 민감한 해싱(LSH)을 활용하는 실용적인 분산 기반 기울기 부스팅 결정 트리 프레임워크인 SimFL을 제안한다. LSH에서 유도된 유사성 정보를 기반으로 가중 기울기 부스팅(WGB)을 적용함으로써 SimFL은 중앙집중식 학습에 근접한 높은 모델 정확도를 달성하면서도 낮은 계산 및 통신 오버헤드를 유지하며, 느슨한 프라이버시 제약 조건 하에서 기존 방법보다 효율성과 예측 성능 면에서 뛰어나다.

ABSTRACT

Gradient Boosting Decision Trees (GBDTs) have become very successful in recent years, with many awards in machine learning and data mining competitions. There have been several recent studies on how to train GBDTs in the federated learning setting. In this paper, we focus on horizontal federated learning, where data samples with the same features are distributed among multiple parties. However, existing studies are not efficient or effective enough for practical use. They suffer either from the inefficiency due to the usage of costly data transformations such as secret sharing and homomorphic encryption, or from the low model accuracy due to differential privacy designs. In this paper, we study a practical federated environment with relaxed privacy constraints. In this environment, a dishonest party might obtain some information about the other parties' data, but it is still impossible for the dishonest party to derive the actual raw data of other parties. Specifically, each party boosts a number of trees by exploiting similarity information based on locality-sensitive hashing. We prove that our framework is secure without exposing the original record to other parties, while the computation overhead in the training process is kept low. Our experimental studies show that, compared with normal training with the local data of each party, our approach can significantly improve the predictive accuracy, and achieve comparable accuracy to the original GBDT with the data from all parties.

연구 동기 및 목표

기존의 수많은 암호화 기법이나 차별적 프라이버시를 기반으로 하는 수평 분산 GBDT 방법들이 비용이 많이 들고 정확도가 낮은 데서 기인하는 비효율성과 낮은 정확도를 해결하기 위해.
원시 데이터가 노출되지 않지만 유용한 유사성 정보는 공유할 수 있는 느슨한 프라이버시 제약 조건 하에서 실용적인 GBDT를 위한 분산 학습 프레임워크를 설계하기 위해.
원시 데이터 대신 공유된 유사성 패턴을 활용해 파티 간 협업 트리 구축을 가능하게 함으로써 모델 정확도를 향상시키기 위해.
기밀 공유나 허니모어프로토콜 암호화를 피하고, 효율적인 LSH 및 경량 통신을 통해 학습 오버헤드를 줄이기 위해.

제안 방법

원시 특성 값을 폭 lộ하지 않고도 데이터 파티 간에 유사성 서명을 계산하고 교환하기 위해 국소성에 민감한 해싱(LSH)을 활용한다.
LSH 기반의 유사성 정보를 활용해 오차가 제한된 가중 기울기 부스팅(WGB) 프레임워크에서 트리 분할 결정을 이끌어내기 위해.
유사도가 높은 샘플에 더 높은 가중치를 할당하는 새로운 WGB 방법을 설계하여, 분산된 데이터를 사용한 효과적인 모델 학습을 가능하게 한다.
LSH의 단방향 성질과 직접적인 데이터 전송이 없기에, 어떤 파티라도 다른 파티의 원시 데이터를 재구성할 수 없도록 하여 프라이버시를 보장한다.
통신을 유사성 서명과 모델 업데이트로만 제한하여, 트리당 통신 비용을 10MB 이하로 줄인다.
LSH를 통해 한 번의 전처리로 재사용 가능한 유사성 서명을 생성하여, 여러 학습 런에 걸쳐 전처리 비용을 분산한다.

실험 결과

연구 질문

RQ1허니모어프로토콜이나 기밀 공유와 같은 고비용 암호화 기반 원리에 의존하지 않고도, 높은 예측 정확도를 달성할 수 있는 분산 기반 GBDT 프레임워크는 가능한가?
RQ2LSH에서 유도된 유사성 정보는 수평적으로 분할된 데이터 간의 일반화 성능 향상에 얼마나 효과적인가?
RQ3느슨한 프라이버시 모델 하에서 분산 기반 GBDT 학습의 프라이버시, 정확도, 효율성 간의 상호 상충 관계는 어떠한가?
RQ4경량이고 통신 효율적인 프레임워크는 기존 방법보다 학습 속도와 모델 정확도 면에서 뛰어나게 성능을 낼 수 있는가?
RQ5다양한 수의 파티와 데이터 분할 비율에서 제안된 방법의 안정성과 확장성은 어떠한가?

주요 결과

SimFL는 HIGGS 데이터셋에서 최대 1.3%의 격차를 보이며 SOLO(로컬 단독 학습)보다 일관되게 낮은 테스트 오차율을 기록했고, ALL-IN(중앙집중식 학습)과 거의 유사한 성능을 보였다.
SUSY 데이터셋에서 SimFL는 테스트 오차율 29.3%를 기록했으며, SOLO는 31.4%, ALL-IN은 29.5%였고, 이는 비균형 데이터 분할 조건 하에서도 뛰어난 성능을 보임을 시사한다.
SimFL의 학습 시간은 SOLO의 10% 이내이며, ALL-IN보다는 상당히 빠르며, HIGGS 데이터셋에서 중앙값으로 44.8초를 기록했고(ALL-IN은 226.6초), 이는 빠른 학습을 가능하게 한다.
트리당 통신 비용은 10MB 이하로, 대규모 암호키 전송이 필요한 암호화 기반 방법보다 크게 낮다.
다양한 수의 파티와 데이터 분할 비율에 걸쳐 안정적으로 작동하며, 여러 실행 런 간 결과의 분산이 매우 낮다.
전처리 비용은 여러 학습 런에 걸쳐 분산되기 때문에, 하이퍼파rameter 튜닝 및 반복적 모델 개발에 실용적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.