[논문 리뷰] Eavesdrop the Composition Proportion of Training Labels in Federated Learning
이 논문은 개인 클라이언트 업데이트를 관찰하지 않고도 연합 학습에서 훈련 라벨의 구성 비율을 밝히는 Class Sniffing, Quantity Inference, Whole Determination의 세 가지 추론 공격을 제시합니다. 보안 집계나 차등 프라이버시 하에서도 마찬가지입니다.
Federated learning (FL) has recently emerged as a new form of collaborative machine learning, where a common model can be learned while keeping all the training data on local devices. Although it is designed for enhancing the data privacy, we demonstrated in this paper a new direction in inference attacks in the context of FL, where valuable information about training data can be obtained by adversaries with very limited power. In particular, we proposed three new types of attacks to exploit this vulnerability. The first type of attack, Class Sniffing, can detect whether a certain label appears in training. The other two types of attacks can determine the quantity of each label, i.e., Quantity Inference attack determines the composition proportion of the training label owned by the selected clients in a single round, while Whole Determination attack determines that of the whole training process. We evaluated our attacks on a variety of tasks and datasets with different settings, and the corresponding results showed that our attacks work well generally. Finally, we analyzed the impact of major hyper-parameters to our attacks and discussed possible defenses.
연구 동기 및 목표
- 연합 학습에서 새로운 프라이버시 취약점 영역을 소개: 훈련 라벨의 수량 구성(구성 비율)을 추론하는 것.
- 개별 그레이디언트 업데이트를 관찰하는 것에 의존하지 않는 세 가지 공격(Class Sniffing, Quantity Inference, Whole Determination)을 제안.
- 다양한 작업/데이터셋에서 효과를 입증하고 하이퍼파라미터 영향 및 방어책을 논의.
제안 방법
- Class Sniffing: 출력 뉴런의 입력 연결 업데이트를 분석하여 특정 라벨이 훈련 라운드에 나타나는지 추론합니다.
- Quantity Inference: 양수/음수 가중치 업데이트의 크기를 비교하고 편향 효과를 제거하여 주어진 라벨을 소유한 클라이언트 수를 추정합니다.
- Whole Determination: 도출된 특징의 비율 지표 및 클러스터링을 사용하여 전체 훈련 과정에 걸친 라벨 구성 비율을 평가합니다.]
- research_questions:[
- Can an attacker determine the presence of a specific label in a single FL training round without observing individual updates?
- Can an attacker infer the quantity composition (how many clients own each label) in a single round and across the full training process without access to plain updates?
- Can the composition proportions of training labels be estimated robustly against aggregation protections like secure aggregation or differential privacy?
실험 결과
연구 질문
- RQ1공격자가 개별 업데이트를 관찰하지 않고 단일 FL 훈련 라운드에서 특정 라벨의 존재를 판단할 수 있나요?
- RQ2공격자가 평문 업데이트에 접근하지 못한 채 단일 라운드 및 전체 훈련 과정에서 수량 구성(각 라벨을 소유한 클라이언트 수)을 추론할 수 있나요?
- RQ3연합 보호(예: secure aggregation 또는 differential privacy)와 같은 집계 보호에 대해 훈련 라벨의 구성 비율을 견고하게 추정할 수 있나요?
주요 결과
- 세 가지 새로운 라벨-수 추론 공격이 라벨 존재 탐지 및 라벨 수 추정에서 높은 성공률을 달성합니다.
- 공격은 글로벌 모델 업데이트와 보조 데이터에 의존하므로 secure aggregation 및 differential privacy 설정에서도 효과적입니다.
- 정량적 기법은 단일 라운드 및 전체 훈련 라운드의 라벨 구성 누출을 가능하게 하여 FL의 프라이버시 위험의 새로운 차원을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.