[논문 리뷰] SGD: Decentralized Byzantine Resilience.
GuanYu는 이-minded한 네트워크에서 최대 1/3의 이-minded 노드를 견디는 비잔티노스 내성성을 갖춘 분산된 SGD 알고리즘으로, 분산된 머신러닝 시스템에서 파라미터 서버와 워커 양쪽 모두에 대해 비잔티노스 공격에 강건한 첫 번째 알고리즘이다. 고차원 공간에서 기하학적 중앙값의 성질을 활용하여 모델 드리프트를 방지함으로써, 원래의 TensorFlow 대비 30%의 처리량 오버헤드를 기록하면서도 수렴 속도를 유지한다.
The size of the datasets available today leads to distribute Machine Learning (ML) tasks. An SGD--based optimization is for instance typically carried out by two categories of participants: parameter servers and workers. Some of these nodes can sometimes behave arbitrarily (called \emph{Byzantine} and caused by corrupt/bogus data/machines), impacting the accuracy of the entire learning activity. Several approaches recently studied how to tolerate Byzantine workers, while assuming honest and trusted parameter servers. In order to achieve total ML robustness, we introduce GuanYu, the first algorithm (to the best of our knowledge) to handle Byzantine parameter servers as well as Byzantine workers. We prove that GuanYu ensures convergence against $\frac{1}{3}$ Byzantine parameter servers and $\frac{1}{3}$ Byzantine workers, which is optimal in asynchronous networks (GuanYu does also tolerate unbounded communication delays, i.e. asynchrony). To prove the Byzantine resilience of GuanYu, we use a contraction argument, leveraging geometric properties of the median in high dimensional spaces to prevent (with probability 1) any drift on the models within each of the non-Byzantine servers. % To convey its practicality, we implemented GuanYu using the low-level TensorFlow APIs and deployed it in a distributed setup using the CIFAR-10 dataset. The overhead of tolerating Byzantine participants, compared to a vanilla TensorFlow deployment that is vulnerable to a single Byzantine participant, is around 30\% in terms of throughput (model updates per second) - while maintaining the same convergence rate (model updates required to reach some accuracy).
연구 동기 및 목표
- 분산된 머신러닝 시스템에서 파라미터 서버의 비잔티노스 내성성 부족 문제를 해결하기 위해.
- 워커와 파라미터 서버 양쪽에 대해 비잔티노스 공격을 견딜 수 있는 분산된 SGD 알고리즘을 설계하기 위해.
- 비동기 네트워크에서 최적의 1/3 이-minded 노드 내성성을 달성하기 위해.
- 무한한 통신 지연과 악성 행동 조건 하에서도 수렴성을 입증하기 위해.
- 실제 분산 환경에서의 구현 및 성능 오버헤드 평가를 수행하기 위해.
제안 방법
- GuanYu는 고차원 공간에서 중앙값의 기하학적 성질에 기반한 수축 논증을 사용한다.
- 비이-minded 파라미터 서버의 모델 업데이트 중앙값을 활용하여 드리프트를 방지하고 수렴을 보장한다.
- 중앙 조정자가 없는 완전한 분산 환경에서 작동한다.
- 모든 노드(파라미터 서버 포함)에 대해 신뢰를 두지 않으며, 임의의 행동을 견딜 수 있다.
- 무한한 지연이 있는 비동기 통신 환경에서도 증명된 내성성을 갖춘다.
- 실제 구현을 위해 저수준 TensorFlow API를 사용하여 실세계 배포 및 성능 평가를 수행한다.
실험 결과
연구 질문
- RQ1워커와 파라미터 서버가 모두 임의의 장애를 겪는 조건에서 분산된 SGD 알고리즘이 비잔티노스 내성성을 확보할 수 있는가?
- RQ2비동기 네트워크에서 분산된 환경에서 이-minded 노드의 비율에 대한 이론적 상한은 얼마인가?
- RQ3악성 업데이트 조건 하에서도 고차원 공간에서 기하학적 중앙값 기반 집계가 모델 드리프트를 방지할 수 있는가?
- RQ4실제 분산 시스템에서 이러한 내성성을 확보하기 위한 실용적 성능 오버헤드는 얼마인가?
- RQ5비잔티노스 내성성을 갖추었음에도 불구하고, 표준 SGD와 동일한 수렴 속도를 유지하는가?
주요 결과
- GuanYu는 최대 1/3의 비이-minded 파라미터 서버와 1/3의 비이-minded 워커에 대해 수렴을 보장하며, 이는 비동기 네트워크에서 최적의 성능이다.
- 고차원 공간에서 기하학적 중앙값 성질을 활용함으로써, 모델 드리프트를 확률 1로 방지한다.
- 무한한 통신 지연을 견딜 수 있어 실제 비동기 환경에서 강력한 내성성을 확보한다.
- TensorFlow 기반 실현 구현을 통해 단일 비이-minded 참가자가 있는 경우 원래의 TensorFlow 대비 30%의 처리량 오버헤드를 기록한다.
- 30%의 오버헤드가 있음에도 불구하고, 목표 정확도에 도달하기 위해 필요한 모델 업데이트 수량 측면에서 표준 SGD와 동일한 수렴 속도를 유지한다.
- 저자들의 지식으로는 GuanYu는 동시에 워커와 파라미터 서버 양쪽에 대해 이러한 내성성을 제공하는 첫 번째 알고리즘이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.