QUICK REVIEW

[논문 리뷰] Asynchronous Byzantine Machine Learning (the case of SGD)

Georgios Damaskinos, El Mahdi El Mhamdi|arXiv (Cornell University)|2018. 02. 22.

Stochastic Gradient Optimization Techniques인용 수 26

한 줄 요약

Kardam은 비동기식 바르자킨-내성(stochastic gradient descent, SGD) 알고리즘으로서, 무한한 통신 지연 동안 거의 확실히 수렴을 보장하며 최대 1/3의 바르자킨 워커를 견디는 최초의 알고리즘이다. 이 알고리즘은 립시츠 연속성 기반의 기울기 필터링 메커니즘을 통해 악성 업데이트를 탐지하고 억제하며, 기울기의 나이에 따라 가중치를 조정하는 지연 인지 보정 기법을 결합하여, f/n으로 제한되는 수렴 속도를 달성한다. 여기서 f는 견디는 바르자킨 워커 수이고 n은 총 워커 수이다.

ABSTRACT

Asynchronous distributed machine learning solutions have proven very effective so far, but always assuming perfectly functioning workers. In practice, some of the workers can however exhibit Byzantine behavior, caused by hardware failures, software bugs, corrupt data, or even malicious attacks. We introduce \emph{Kardam}, the first distributed asynchronous stochastic gradient descent (SGD) algorithm that copes with Byzantine workers. Kardam consists of two complementary components: a filtering and a dampening component. The first is scalar-based and ensures resilience against $\frac{1}{3}$ Byzantine workers. Essentially, this filter leverages the Lipschitzness of cost functions and acts as a self-stabilizer against Byzantine workers that would attempt to corrupt the progress of SGD. The dampening component bounds the convergence rate by adjusting to stale information through a generic gradient weighting scheme. We prove that Kardam guarantees almost sure convergence in the presence of asynchrony and Byzantine behavior, and we derive its convergence rate. We evaluate Kardam on the CIFAR-100 and EMNIST datasets and measure its overhead with respect to non Byzantine-resilient solutions. We empirically show that Kardam does not introduce additional noise to the learning procedure but does induce a slowdown (the cost of Byzantine resilience) that we both theoretically and empirically show to be less than $f/n$, where $f$ is the number of Byzantine failures tolerated and $n$ the total number of workers. Interestingly, we also empirically observe that the dampening component is interesting in its own right for it enables to build an SGD algorithm that outperforms alternative staleness-aware asynchronous competitors in environments with honest workers.

연구 동기 및 목표

무한한 지연이 발생하는 현실적인 분산 머신러닝 시스템에서 바르자킨-내성 비동기 SGD 알고리즘이 부족한 문제를 해결하기 위해.
동기화 조정이나 쿼럼 대기 없이 최대 1/3의 바르자킨 워커를 견딜 수 있는 해결책을 설계하기 위해.
비동기성과 악성 행동에도 불구하고 기울기 필터링과 지연 인지 보정을 통해 높은 수렴 효율을 유지하기 위해.
거의 확실히 수렴함을 이론적으로 증명하고, 바르자킨 장애 수에 따라 유리하게 스케일링되는 수렴 속도를 유도하기 위해.

제안 방법

비용 함수의 립시츠 연속성을 활용하여 바르자킨 워커의 기울기를 탐지하고 억제하는 스칼라 기반 기울기 필터를 도입한다.
기울기의 지연도에 따라 각 기울기를 스케일링하는 일반적인 기울기 가중치 부여 기법(보정 함수)을 사용하여 오래된 업데이트의 영향을 줄인다.
노이즈가 많고 지연된 기울기 하에서 수렴 속도와 안정성의 균형을 맞추기 위해 적응형 학습률 스케줄을 사용한다.
파rameter 서버는 필터링과 보정을 적용한 후에야 기울기를 집계하므로, 임의의 바르자킨 행동에도 저항력과 수렴성을 확보한다.
이론적 분석을 통해 거의 확실히 수렴함을 증명하고, 수렴 속도를 O(µmax / √T · |ξ| · M + χ · µmax / T + d · σ² + 2DKσ / √d + K²D²)로 도출한다. 여기서 χ는 지연 영향을 제한한다.
지연과 바르자킨 노이즈를 동시에 고려하는 새로운 수렴 분석 프레임워크를 도입하며, 리아파노프 유사 추론과 적응형 학습률을 사용한다.

실험 결과

연구 질문

RQ1무한한 통신 지연 하에서도 수렴성과 바르자킨 실패에 대한 내성을 유지하는 비동기 SGD 알고리즘을 설계할 수 있는가?
RQ2동기화 조정이나 쿼럼 대기 없이 악성 기울기를 어떻게 제거할 수 있는가?
RQ3지연된 기울기를 최적으로 가중시키는 방법은 무엇이며, 이는 수렴성을 유지하면서도 강건성을 향상시킬 수 있는가?
RQ4보정 기법 자체만으로도 바르자킨 내성과 무관하게 순수한 정상 워커 환경에서 성능 향상을 이룰 수 있는가?
RQ5이러한 내성 비동기 SGD 알고리즘의 이론적 수렴 속도는 무엇이며, 바르자킨 워커 수에 따라 어떻게 스케일링되는가?

주요 결과

Kardam은 비동기성과 최대 1/3의 바르자킨 워커가 존재하는 상황에서도 무한한 통신 지연 하에서도 거의 확실히 수렴함을 보장한다.
수렴 속도는 f/n으로 제한되며, 여기서 f는 견디는 바르자킨 워커 수이고 n은 총 워커 수이다. 이는 내성 비용의 유리한 스케일링을 보여준다.
실험적으로 Kardam은 학습 과정에 추가 노이즈를 도입하지 않아, 바르자킨 내성 메커니즘이 모델 품질을 떨어뜨리지 않음을 시사한다.
보정 성분만으로도 DynSGD와 같은 기존의 비동기 SGD 기준보다 성능 향상을 보였으며, 정상이지만 지연된 워커가 많은 환경에서 尤히 두드러진다.
지수 보정 함수(Λ(τ) = exp(−αβ√τ))는 역선형 함수(Λ(τ) = 1/(1+τ))보다 이론적·실험적으로 더 빠른 수렴 속도를 보였다.
CIFAR-100과 EMNIST에서 Kardam은 f/n 비례로 약간의 지연만으로도 경쟁 가능한 정확도와 손실을 달성하여 실용적 타당성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.