QUICK REVIEW

[논문 리뷰] The Tradeoff Between Privacy and Accuracy in Anomaly Detection Using Federated XGBoost

Mengwei Yang, Linqi Song|arXiv (Cornell University)|2019. 07. 16.

Privacy-Preserving Technologies in Data참고 문헌 28인용 수 23

한 줄 요약

이 논문은 데이터 집계와 희소 연합 업데이트를 통해 기밀성과 정확성의 균형을 이루는 수평적 연합 XGBoost 프레임워크를 제안한다. 사용자 데이터를 가상 샘플로 그룹화하고 잘못 분류된 인스턴스에 집중하여 업데이트함으로써, 최신 기술 대비 F1-스코어는 최대 5% 향상되고 AUC는 3.4% 향상되며, 클러스터 크기를 통해 기밀성(클러스터 크기)과 성능 간 조정 가능한 트레이드오프를 제공한다.

ABSTRACT

Privacy has raised considerable concerns recently, especially with the advent of information explosion and numerous data mining techniques to explore the information inside large volumes of data. In this context, a new distributed learning paradigm termed federated learning becomes prominent recently to tackle the privacy issues in distributed learning, where only learning models will be transmitted from the distributed nodes to servers without revealing users' own data and hence protecting the privacy of users. In this paper, we propose a horizontal federated XGBoost algorithm to solve the federated anomaly detection problem, where the anomaly detection aims to identify abnormalities from extremely unbalanced datasets and can be considered as a special classification problem. Our proposed federated XGBoost algorithm incorporates data aggregation and sparse federated update processes to balance the tradeoff between privacy and learning performance. In particular, we introduce the virtual data sample by aggregating a group of users' data together at a single distributed node. We compute parameters based on these virtual data samples in the local nodes and aggregate the learning model in the central server. In the learning model upgrading process, we focus more on the wrongly classified data before in the virtual sample and hence to generate sparse learning model parameters. By carefully controlling the size of these groups of samples, we can achieve a tradeoff between privacy and learning performance. Our experimental results show the effectiveness of our proposed scheme by comparing with existing state-of-the-arts.

연구 동기 및 목표

민감하고 불균형한 데이터셋을 사용하는 분산 이상 탐지에서 기밀성 위험을 해결하기 위해.
사용자 데이터 기밀성을 유지하면서도 높은 탐지 정확도를 유도하는 연합 학습 프레임워크를 설계하기 위해.
연합 XGBoost에서 데이터 기밀성(데이터 클러스터링을 통한)과 모델 성능 간의 트레이드오프를 탐색하기 위해.
잘못 분류된 샘플에 집중된 희소 모델 업데이트를 통해 학습 효율성을 향상시키고 통신 비용을 절감하기 위해.
실제 사기 탐지 사례, 특히 극도로 불균형한 데이터 환경에서 제안된 프레임워크의 효과성을 입증하기 위해.

제안 방법

수정된 K-익명성 기반으로 사용자 데이터를 그룹화하여 가상 데이터 샘플을 생성함으로써 기밀성을 유지하면서도 분할 이득 계산이 가능하도록 한다.
프레임워크는 가상 샘플에서 생성된 집계된 특성 시퀀스를 사용해 분할 이득을 계산하며, 원시 사용자 데이터의 직접 전송을 방지한다.
데이터 집계 후 연합 모델 업데이트의 두 단계 과정을 통해 개인 데이터 폭 lộ 없이 기밀성 유지 학습이 가능하다.
잘못 분류된 인스턴스의 기울기를 우선순위로 삼아 희소 연합 업데이트를 적용함으로써 통신 비용을 감소시키고 수렴 속도를 향상시킨다.
가상 샘플에서 집계된 기울기를 기반으로 중앙에서 모델 파라미터를 업데이트함으로써 노드 간 모델 일관성을 유지한다.
가상 데이터 집계에서의 클러스터 크기를 조정하여 기밀성(큰 클러스터)과 정확성(작은 클러스터) 간의 트레이드오프를 제어한다.

실험 결과

연구 질문

RQ1연합 이상 탐지에서 사용자 데이터 기밀성을 손상시키지 않고 어떻게 유지할 수 있는가?
RQ2가상 데이터 클러스터링 크기가 기밀성과 탐지 성능 간 트레이드오프에 미치는 영향은 무엇인가?
RQ3잘못 분류된 샘플에 집중된 희소 연합 업데이트가 학습 효율성과 모델 정확도 향상에 기여할 수 있는가?
RQ4제안된 연합 XGBoost 프레임워크는 불균형 데이터셋에서 기존 최신 기술 대비 어떻게 비교되는가?
RQ5두 단계의 데이터 집계 및 모델 업데이트 과정이 기밀성 유지와 모델 성능 유지에 얼마나 기여하는가?

주요 결과

제안된 연합 XGBoost 프레임워크는 원본 데이터 차원에서 F1-스코어 0.9014를 달성하여, GBDT 및 랜덤 포레스트 대비 최대 5% 향상된 F1-스코어를 기록한다.
가상 클러스터 크기를 405로 줄였을 때 F1-스코어는 0.8951로 감소하여 기밀성과 정확성 간의 측정 가능한 트레이드오프를 보여준다.
업데이트된 연합 XGBoost 모델의 AUC는 원본 차원에서 0.9748에 도달하여 기준선 대비 3.4% 향상되었다.
AUPRC 결과는 업데이트 후 일관된 향상을 보이며, 훈련 및 테스트 세트에서 모두 높은 정밀도와 재현율을 확보했다.
연합 XGBoost 프레임워크의 훈련 손실은 GBDT보다 더 빠르게 감소하여 더 빠른 수렴을 나타낸다.
모델은 모든 설정에서 높은 정확도(0.9997)를 유지함으로써, 불균형 데이터셋에서 성능 평가에 있어 정확도만으로는 부족함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.