Skip to main content
QUICK REVIEW

[논문 리뷰] Analyzing Federated Learning through an Adversarial Lens

Arjun Nitin Bhagoji, Supriyo Chakraborty|arXiv (Cornell University)|2018. 11. 29.
Adversarial Robustness in Machine Learning참고 문헌 30인용 수 385
한 줄 요약

논문은 단일 악의적 연합 학습 에이전트가 특정 오분류를 유도하기 위한 표적 모델 포이즈닝을 수행할 수 있으며, 은밀하고 Byzantine-저항적 집계에서도 글로벌 모델은 여전히 잘 수렴한다.

ABSTRACT

Federated learning distributes model training among a multitude of agents, who, guided by privacy concerns, perform training using their local data but share only model parameter updates, for iterative aggregation at the server. In this work, we explore the threat of model poisoning attacks on federated learning initiated by a single, non-colluding malicious agent where the adversarial objective is to cause the model to misclassify a set of chosen inputs with high confidence. We explore a number of strategies to carry out this attack, starting with simple boosting of the malicious agent's update to overcome the effects of other agents' updates. To increase attack stealth, we propose an alternating minimization strategy, which alternately optimizes for the training loss and the adversarial objective. We follow up by using parameter estimation for the benign agents' updates to improve on attack success. Finally, we use a suite of interpretability techniques to generate visual explanations of model decisions for both benign and malicious models and show that the explanations are nearly visually indistinguishable. Our results indicate that even a highly constrained adversary can carry out model poisoning attacks while simultaneously maintaining stealth, thus highlighting the vulnerability of the federated learning setting and the need to develop effective defense strategies.

연구 동기 및 목표

  • 연합 학습이 단일 비협력적 악의 에이전트에 의해 모델 포이즈닝에 얼마나 취약한지 동기 부여 및 정량화한다.
  • 선정된 입력의 표적 오분류를 글로벌 모델 수렴을 유지하는 방식으로 달성할 수 있음을 보인다.
  • 부스팅, 은밀성 적응, 다양한 집계 방식에서의 교대 최소화 전략을 탐구한다.
  • 정확도 검사 및 가중치 업데이트 통계 등을 통한 탐지 가능성을 평가하고 Byzantine-저항적 집계의 견고성을 분석한다.

제안 방법

  • 단일 악의적 에이전트가 있는 연합 학습에서 표적 모델 포이즈닝 위협 모델을 공식화한다.
  • 악의적 업데이트가 정상 업데이트를 압도하도록 명시적 부스팅을 개발한다.
  • 검증 정확도 및 업데이트 통계에 맞추어 악의적 업데이트를 은밀하게 만들기 위한 은밀성 지향 손실 항을 도입한다.
  • 적대적 목표와 은밀한 목표를 분리하기 위한 교대 최소화 전략을 제안한다.
  • Krum 및 좌표별 중앙값과 같은 Byzantine-저항적 집계 메커니즘에서의 공격을 조사한다.
  • 매 라운드마다 선택되지 않은 악의 에이전트의 업데이트를 더 잘 예측하기 위한 추정 접근법을 도입한다.

실험 결과

연구 질문

  • RQ1단일 악의적 연합 학습 에이전트가 글로벌 모델의 전반적 수렴을 유지하면서 표적 오분류를 유도할 수 있는가?
  • RQ2표적 포이즈닝을 표준 및 Byzantine-저항적 집계 하에서 달성하기 위한 부스팅, 은밀성, 교대 최소화 전략의 효과는 어느 정도인가?
  • RQ3Krum, 좌표별 중앙값과 같은 Byzantine-저항적 메커니즘은 단일 적대자에 의한 표적 모델 포이즈닝에 저항하는가?
  • RQ4매 라운드마다 선택되지 않을 때 공격 성공률을 높이기 위해 상대 에이전트의 업데이트를 추정할 수 있는가?
  • RQ5도입된 은밀성 지표(검증 정확도 검사 및 가중치 업데이트 통계)가 악의적 업데이트를 탐지하는 데 효과적인가?

주요 결과

  • 단일 악의적 에이전트에 의한 표적 모델 포이즈닝은 글로벌 모델을 선택된 입력에 대해 높은 확신으로 오분류하도록 유도하되, 모델은 여전히 우수한 테스트 성능으로 수렴한다.
  • 명시적 부스팅은 악의적 업데이트가 정상 업데이트를 지배하도록 하여 표적 오분류를 달성한다(예: Fashion-MNIST 예에 대해 100% 신뢰도).
  • 검증 정확도와 가중치 업데이트 통계에 기반한 은밀성 지표는 악의적 업데이트를 드러낼 수 있으며, 은밀성 강화 공격은 많은 라운드에서 탐지를 회피할 수 있다.
  • 은밀하고 교대 최소화 공격은 거의 정상 업데이트 분포를 유지해 대다수의 라운드에서 정확도 기반 또는 거리 기반 경보를 유발하지 않고도 높은 공격 성공률을 달성한다.
  • Krum과 좌표별 중앙값과 같은 Byzantine-저항적 집계는 표적 모델 포이즈닝에 대해 완전히 방어하지 못하며, 이러한 체계 하에서도 공격은 여전히 효과적이다.
  • 이전 단계 추정과 같은 상대 에이전트 업데이트 추정은 특히 악의적 에이전트가 매 라운드 선택되지 않을 때 공격 성공률을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.