QUICK REVIEW

[논문 리뷰] Mitigating Byzantine Attacks in Federated Learning.

Saurav Prakash, Amir Salman Avestimehr|arXiv (Cornell University)|2020. 10. 15.

Privacy-Preserving Technologies in Data참고 문헌 24인용 수 28

한 줄 요약

DiverseFL는 비대칭 데이터, 변동하는 바르비시안 결함, 비볼록 최적화 문제를 동시에 다루기 위해 최소한의 데이터 샘플을 바탕으로 각 클라이언트별 지도 기반 기울기(gradient)를 계산하는 새로운 바르비시안에 강건한 분산 학습 프레임워크를 제안한다. 서버는 클라이언트별 기울기 비교를 통해 바르비시안 클라이언트를 식별하고, 비표시된 클라이언트의 기울기만을 사용해 글로벌 모델을 업데이트함으로써 벤치마크에서 오라클 SGD에 근접한 성능을 달성한다.

ABSTRACT

Prior solutions for mitigating Byzantine failures in federated learning, such as element-wise median of the stochastic gradient descent (SGD) based updates from the clients, tend to leverage the similarity of updates from the non-Byzantine clients. However, when data is non-IID, as is typical in mobile networks, the updates received from non-Byzantine clients are quite diverse, resulting in poor convergence performance of such approaches. On the other hand, current algorithms that address heterogeneous data distribution across clients are limited in scope and do not perform well when there is variability in the number and identities of the Byzantine clients, or when general non-convex loss functions are considered. We propose `DiverseFL' that jointly addresses three key challenges of Byzantine resilient federated learning -- (i) non-IID data distribution across clients, (ii) variable Byzantine fault model, and (iii) generalization to non-convex and non-smooth optimization. DiverseFL leverages computing capability of the federated learning server that for each iteration, computes a `guiding' gradient for each client over a tiny sample of data received only once from the client before start of the training. The server uses `per client' criteria for flagging Byzantine clients, by comparing the corresponding guiding gradient with the client's gradient update. The server then updates the model using the gradients received from the non-flagged clients. As we demonstrate in our experiments with benchmark datasets and popular Byzantine attacks, our proposed approach performs better than the prior algorithms, almost matching the performance of the `Oracle SGD', where the server knows the identities of the Byzantine clients.

연구 동기 및 목표

클라이언트 간 데이터가 비대칭일 경우 기존 중앙값 기반 집합 방법이 실패하는 상황에서 분산 학습의 바르비시안 내성 문제를 해결한다.
기존 방법들이 변동하는 바르비시안 결함 모델이나 일반적인 비볼록 손실 함수에서 실패하는 한계를 극복한다.
바르비시안 클라이언트의 수와 신원이 예측 불가능한 현실적인 분산 환경에서 강건한 모델 훈련을 가능하게 한다.
바르비시안 클라이언트에 대한 사전 지식이 없거나, 정상 클라이언트 간 데이터 유사성 가정 없이도 수렴 및 일반화 성능을 향상시킨다.

제안 방법

훈련 시작 전, 서버는 각 클라이언트로부터 수신한 소량의 데이터를 한 번만 사용해 각 클라이언트의 '지시 기울기'(guiding gradient)를 계산한다.
각 클라이언트에 대해, 서버는 실제 기울기 업데이트와 사전 계산된 지시 기울기 간의 차이를 클라이언트별 기준으로 비교해 이상치를 탐지한다.
지시 기울기에서 크게 벗어난 기울기를 가진 클라이언트는 잠재적인 바르비시안으로 표시된다.
글로벌 모델은 오직 비표시된(신뢰할 수 있는) 클라이언트의 기울기만을 사용해 업데이트되며, 이로써 강건한 집합이 보장된다.
이 방법은 일반적인 비볼록 및 비연속 손실 함수와도 호환되며, 볼록 환경을 넘어서 적용 가능성을 넓힌다.
클라이언트 훈련 중 추가 통신 없이도 서버 측 계산을 활용해 탐지 정확도를 향상시킨다.

실험 결과

연구 질문

RQ1기존 중앙값 기반 방법이 실패하는 비대칭 데이터 분포 하에서 바르비시안 내성 분산 학습 방법이 높은 성능을 유지할 수 있는가?
RQ2클라이언트 수와 신원이 라운드 간 변동할 경우, 클라이언트별 지시 기울기 메커니즘이 바르비시안 클라이언트 탐지에 얼마나 효과적인가?
RQ3서버 측 탐지 메커니즘이 바르비시안 클라이언트를 사전에 알고 있는 오라클 SGD에 비해 얼마나 높은 성능을 달성할 수 있는가?
RQ4제안된 방법이 딥러닝에서 흔한 비볼록 및 비연속 최적화 문제에 일반화되는가?
RQ5기본 벤치마크 데이터셋에서 현실적인 바르비시안 공격 시나리오에 대해 기존 최첨단 기법과 비교해 성능은 어떻게 되는가?

주요 결과

DiverseFL은 다양한 벤치마크 데이터셋에서 오라클 SGD(바르비시안 클라이언트를 완전히 알고 있는 경우)의 수렴 성능에 거의 근접한 성능을 달성한다.
비대칭 데이터 환경에서 기존 중앙값 기반 및 강건한 집합 기법보다 뚜렷이 뛰어난 성능을 보이며, 클라이언트 기울기 다양성으로 인해 이러한 기법들이 성능 저하를 겪는 문제를 해결한다.
바르비시안 클라이언트의 수와 신원이 훈련 라운드 간 변동하더라도 DiverseFL은 강건성과 일관된 성능을 유지한다.
클라이언트별 지시 기울기의 사용은 정상 클라이언트 간 기울기 유사성 가정 없이도 정확한 바르비시안 클라이언트 탐지가 가능하게 한다.
비볼록 및 비연속 손실 함수로의 일반화 성능이 뛰어나 실세계 딥러닝 응용에 적합하다.
표준 분산 학습 벤치마크에서의 실증 평가 결과, DiverseFL은 기존 기준 기법 대비 다양한 바르비시안 공격 상황에서 모델 정확도 저하를 줄이는 것으로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.