Skip to main content
QUICK REVIEW

[논문 리뷰] Mitigating Backdoor Attacks in Federated Learning

Chen Wu, Yang Xian|arXiv (Cornell University)|2020. 10. 28.
Adversarial Robustness in Machine Learning참고 문헌 20인용 수 60
한 줄 요약

논문은 연합 학습에서 클라이언트의 원시 데이터에 접근하지 않고 백도어 공격을 완화하기 위한 연합 가지치기 프레임워크와 가중치 조정 및 미세 조정을 제안하며, 정확도 손실은 최소화하면서 공격 성공률을 크게 감소시킵니다.

ABSTRACT

Malicious clients can attack federated learning systems using malicious data, including backdoor samples, during the training phase. The compromised global model will perform well on the validation dataset designed for the task, but a small subset of data with backdoor patterns may trigger the model to make a wrong prediction. There has been an arms race between attackers who tried to conceal attacks and defenders who tried to detect attacks during the aggregation stage of training on the server-side. In this work, we propose a new and effective method to mitigate backdoor attacks after the training phase. Specifically, we design a federated pruning method to remove redundant neurons in the network and then adjust the model's extreme weight values. Our experiments conducted on distributed Fashion-MNIST show that our method can reduce the average attack success rate from 99.7% to 1.9% with a 5.5% loss of test accuracy on the validation dataset. To minimize the pruning influence on test accuracy, we can fine-tune after pruning, and the attack success rate drops to 6.4%, with only a 1.7% loss of test accuracy. Further experiments under Distributed Backdoor Attacks on CIFAR-10 also show promising results that the average attack success rate drops more than 70% with less than 2% loss of test accuracy on the validation dataset.

연구 동기 및 목표

  • 클라이언트 데이터가 비공개로 유지되는 상황에서 연합 학습의 백도어 취약점을 고찰하고 해결한다.
  • 클라이언트 데이터셋에 접근하지 않고도 비공개 데이터 프라이버시를 유지하며 휴면 뉴런을 제거하고 백도어를 완화하는 가지치기 방법을 개발한다.
  • 검증 정확도를 보존하기 위해 극단적 가중치 조정과 가지치기 후 미세 조정 단계를 포함해 가지치기를 강화한다.
  • 비 IID 데이터 분포와 분산 백도어 공격 하에서 MNIST, Fashion-MNIST, CIFAR-10에 대해 효과를 입증한다.

제안 방법

  • 클라이언트 유래 활성화 순위 또는 이진 투표 마스크를 사용하여 휴면 뉴런을 가지치기하는 두 가지 연합 가지치기 방법을 도입한다.
  • 클라이언트 신호를 집계하여 글로벌 가지치기 순서를 형성하고 작은 데이터셋으로 검증하면서 뉴런을 가지치기한다.
  • 층의 평균 mu_i와 표준편차 sigma_i를 이용하여 레이어별 임계값 s = mu_i ± Delta * sigma_i를 넘는 가중치를 0으로 설정하여 극단적 가중치를 조정한다.
  • 공격자 활성 입력을 제약하고 백도어 효능을 제한하는 데 도움이 되도록 입력 정규화를 적용한다.

실험 결과

연구 질문

  • RQ1연합 가지치기가 클라이언트의 비공개 데이터에 접근하지 않고도 휴면 뉴런을 제거하며 백도어 효과를 완화할 수 있는가?
  • RQ2가지치기 전략이 백도어의 대상과 클라이언트 간 데이터 분포와 어떻게 상호 작용하는가?
  • RQ3가지치기 후 미세 조정과 극단적 가중치 조정이 공격 성공률을 줄이면서 검증 정확도를 유지하거나 회복시키는가?
  • RQ4제안된 방어책이 비 IID 분포와 분산 백도어 공격 하에서 MNIST, Fashion-MNIST, CIFAR-10 전체에 대해 효과적인가?

주요 결과

  • 연합 가지치기는 백도어 공격 성공률을 높은 수치(예: >99%)에서 낮은 수치로(대개 <2%) 감소시키고 테스트 정확도는 소폭 손실한다.
  • 가지치기 후 극단적 가중치를 조정하면 공격 성공률을 다시 10% 미만으로 줄이고 검증 정확도는 약 5% 정도 유지하거나 향상시킨다.
  • 두 가지 가지치기 방법(Ranking Vote 및 Majority Vote)은 테스트 대상과 데이터셋 전반에서 비슷한 가지치기 효과를 낸다.
  • 가지치기 후 미세 조정이 정확도를 회복하는 데 도움이 되며, 전체 방어 파이프라인은 비 IID 데이터 및 분산 백도어 공격에서 효과적으로 유지된다.
  • MNIST, Fashion-MNIST 및 CIFAR-10에 대한 실험은 최첨단 분산 백도어 공격하에서 백도어 성공률의 유망한 감소를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.