QUICK REVIEW

[논문 리뷰] The Hidden Vulnerability of Distributed Learning in Byzantium

El Mahdi El Mhamdi, Rachid Guerraoui|arXiv (Cornell University)|2018. 02. 22.

Stochastic Gradient Optimization Techniques참고 문헌 20인용 수 473

한 줄 요약

논문은 분산 SGD에서 Byzantine-강건한 집계가 고차원에서 여전히 비효과적인 모델로 학습을 이끌 수 있음을 보이고, 공격자의 여지를 O(1/√d)로 크게 줄이는 Bulyan을 도입하며 MNIST와 CIFAR-10에서 실증적 검증을 제공합니다.

ABSTRACT

While machine learning is going through an era of celebrated success, concerns have been raised about the vulnerability of its backbone: stochastic gradient descent (SGD). Recent approaches have been proposed to ensure the robustness of distributed SGD against adversarial (Byzantine) workers sending poisoned gradients during the training phase. Some of these approaches have been proven Byzantine-resilient: they ensure the convergence of SGD despite the presence of a minority of adversarial workers. We show in this paper that convergence is not enough. In high dimension $d \gg 1$, an adver\-sary can build on the loss function's non-convexity to make SGD converge to ineffective models. More precisely, we bring to light that existing Byzantine-resilient schemes leave a margin of poisoning of $Ω\left(f(d) ight)$, where $f(d)$ increases at least like $\sqrt{d~}$. Based on this leeway, we build a simple attack, and experimentally show its strong to utmost effectivity on CIFAR-10 and MNIST. We introduce Bulyan, and prove it significantly reduces the attackers leeway to a narrow $O( \frac{1}{\sqrt{d~}})$ bound. We empirically show that Bulyan does not suffer the fragility of existing aggregation rules and, at a reasonable cost in terms of required batch size, achieves convergence as if only non-Byzantine gradients had been used to update the model.

연구 동기 및 목표

고차원 비볼록 환경에서 Byzantine 장애 하의 분산 SGD의 강건성 연구를 동기부여한다.
신경망에 대해 Byzantine-강건 합산 규칙의 수렴 보장이 충분한지 평가한다.
ℓp 기반 GAR에 대해 차원의 저주를 악용하는 공격의 존재를 입증한다.
Byzantine-여유를 좁히는 일반적 개선안(Bulyan)을 제안하고 수렴성을 증명한다.
MNIST와 CIFAR-10에서 실험적으로 접근법을 검증하고 계산 비용의 트레이드오프를 분석한다.

제안 방법

그라디언트 집계 규칙(GAR)하에서 마스터와 f명의 Byzantine 워커를 갖는 분산 SGD 모델을 설명한다.
고차원 손실 지형을 활용해 집계된 그래디언트를 비최적 영역으로 밀어 넣는 간단한 공격을 특징짓는다.
기저 Byzantine-강건 규칙 A를 이용해 그라디언트 집합을 선택하고, 그다음 좌표의 중앙값에 β-최근접 값으로 좌표를 집계하는 두 단계의 개선안 Bulyan을 도입한다.
이론적 한계를 증명한다: (i) Bulyan은 매 좌표당 Byzantine 여유를 O(1/√d)로 축소하고, (ii) Bulyan은 A와 동일한 α, f 한계 하에서 수렴을 보존한다.
Bulyan의 비용이 에폭당 O((n−2f)C + dn)임을 보이는 복잡도 분석을 제공하고, 실제로는 GeoMed/Krum 변형의 경우 O(n^2 d)임을 보인다.
MNIST와 CIFAR-10에서 Bulyan을 Brute, Krum, GeoMed와 실험적으로 비교하고 수렴 속도와 강건성을 연구한다.

실험 결과

연구 질문

RQ1고차원이고 비볼록인 신경망에서 Byzantine-강건한 그래디언트 집계가 수렴을 보장할 수 있는가?
RQ2대규모 비볼록 설정에서 기존 GAR이 가지는 적대적 여유는 어느 정도인가?
RQ3수렴성을 해치지 않으면서 공격자의 영향을 좁히는 GAR의 보강을 설계할 수 있는가?
RQ4제안된 Bulyan 방법이 강건한 수렴을 회복하는가, 그리고 실무에서 학습 속도에 어떤 영향을 미치는가?

주요 결과

기존 Byzantine-강건 GAR의 수렴 보장은 고차원에서 한 명의 Byzantine 워커와 마주할 때 여전히 비효율적 모델을 낳을 수 있다.
Ω(f(d)) 독성 마진이 ℓp 기반 GAR에 존재하며, 최소한 √d 만큼 증가해 효과적인 공격을 가능하게 한다.
일반적 개선안 Bulyan(A)은 공격자의 좌표단위 영향력을 O(σ/√d)로 단단히 제한하고 수렴을 유지한다.
MNIST와 CIFAR-10의 실증 결과 Bulyan이 A와 함께 사용될 때(예: Krum) 비- Byzantine 평균에 근접한 정확도를 달성하고 제안된 공격에 저항한다.
비- Byzantine 시나리오에서 Bulyan은 수렴 속도 비용이 비교적 작고, 미니배치 크기가 작을 때 가장 크게 나타나며 합리적 배치 크기로 최소화할 수 있다.
Bulyan은 (α, f)- Byzantine-저항 프레임워크 하에서 거의 확실한 수렴 보장을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.