QUICK REVIEW

[논문 리뷰] Byzantine Stochastic Gradient Descent

Dan Alistarh, Zeyuan Allen-Zhu|arXiv (Cornell University)|2018. 03. 23.

Stochastic Gradient Optimization Techniques참고 문헌 27인용 수 104

한 줄 요약

이 논문은 분산 확률적 최적화에서 Byzantine-robust SGD 방법을 제시하여, 일부 Byzantine 워커 하에서 거의 최적에 가까운 샘플 및 시간 복잡도를 달성하고 공식적인 하한을 제시합니다. α < 1/2 Byzantine 머신을 허용하고, 비-Byzantine 성능과 추가적 α 의존 항까지 일치하는 알고리즘을 제공합니다.

ABSTRACT

This paper studies the problem of distributed stochastic optimization in an adversarial setting where, out of the $m$ machines which allegedly compute stochastic gradients every iteration, an $α$-fraction are Byzantine, and can behave arbitrarily and adversarially. Our main result is a variant of stochastic gradient descent (SGD) which finds $\varepsilon$-approximate minimizers of convex functions in $T = ilde{O}\big( \frac{1}{\varepsilon^2 m} + \frac{α^2}{\varepsilon^2} \big)$ iterations. In contrast, traditional mini-batch SGD needs $T = O\big( \frac{1}{\varepsilon^2 m} \big)$ iterations, but cannot tolerate Byzantine failures. Further, we provide a lower bound showing that, up to logarithmic factors, our algorithm is information-theoretically optimal both in terms of sampling complexity and time complexity.

연구 동기 및 목표

일부 워커가 악의적으로 작동할 수 있는 상황에서 강건한 분산 최적화를 동기화하는 동기를 제시한다.
다수의 워커로부터의 확률적 기울기를 이용하여 볼록(또는 강볼록) 목적함수를 최소화하되 Byzantine 결함을 허용한다.
바이너스 워커가 존재하는 상황에서 정보 이론상 최적의 샘플 및 시간 복잡도를 로그 차수의 요인을 포함하여 달성한다.
Byzantine 설정에서 확장성 및 단일 반복당 커뮤니케이션을 낮게 유지하도록 보장한다.

제안 방법

한 워커당 두 개의 추정 시퀀스(A_i 및 B_i)를 유지하는 강건한 집계 전략인 ByzantineSGD를 제안하여 실행 중에 Byzantine 머신을 탐지하고 제외한다.
각 반복에서 실행을 재시작하지 않고 중앙값(Amed, Bmed, ∇med)을 사용하여 좋은 머신의 하위집합을 식별한다.
확인된 좋은 집합의 평균 기울기로 반복을 업데이트하여 Byzantine 영향력을 완화한다.
Byzantine 워커가 도입하는 편향 및 분산을 한정하기 위한 형식적인 수렴 보조정리(Event A, Event B, Event C)를 제공한다.
매끄럽고 매끄럽지 않은 경우를 포함하여 비강하게 볼록 및 강볼록 목적함수에 대한 수렴 보장을 도출한다.
로그적(epoch 수) 수를 사용하여 ε-최적화를 달성하기 위해 ByzantineSGD를 반복하는 강볼록성용 에폭 기반 확장(ByzantineSGD in strong convexity)을 제안한다.

실험 결과

연구 질문

RQ1일부 α 만큼의 워커가 Byzantine일 때 ε 근사 최솟값에 도달하는 데 필요한 반복 수와 샘플 수는 얼마인가요?
RQ2 Byzantine 워커를 허용하면서도 거의 최적의 샘플 및 시간 복잡도를 유지하는 SGD 유사 알고리즘을 설계할 수 있을까요?
RQ3적대적 동작이 존재하는 상황에서 신뢰할 수 있게 좋은 워커를 식별하게 하는 집중 도구와 강건한 집계 스킴은 무엇인가요?
RQ4매끄러운 것과 비매끄러운 것, 볼록과 강볼록 목표함수 간에 강건성 보장이 어떻게 다릅니까?

주요 결과

ByzantineSGD는 매끄러운 볼록 목표에 대해 T = e^{O(1/ε^2m) + α^2/ε^2} 반복에서 ε-근사 최솟값을 달성하고, σ-강볼록 목표에 대해서는 T = e^{O(1/σ + 1/(σεm) + α^2/σε)}를 달성한다.
α 의존 항 α^2/ε^2(또는 α^2/(σε))가 필요함을 보여주는 일치하는 정보 이론적 하한이 있다.
가산적 α 의존 항은 불가피하고, 나머지 항은 상수 차이를 제외하면 비-Byzantine SGD와 일치하며 α 관련 한계까지 병렬 속도를 유지한다.
Byzantine 비율 α < 1/2 를 지원하며, 각 워커당 단일 기울기만 필요로 하여 반복당 커뮤니케이션 효율을 유지한다.
이전 연구(예: 좌표별 중앙값 방법)와 비교하여 ByzantineSGD가 고차원에서 특히 더 나은 샘플 및 시간 스케일링을 달성하고, 더 적은 확률적 기울기 계산을 수행한다.
강볼록 목표의 경우 에폭 기반 변형은 T = e^{O(L/σ) + V^2/(mσε) + α^2V^2/σε} 반복에서 수렴하며, 표준 GD 속도와 Byzantine 강건성을 맞춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.