Skip to main content
QUICK REVIEW

[논문 리뷰] DRACO: Byzantine-resilient Distributed Training via Redundant Gradients

Lingjiao Chen, Hongyi Wang|arXiv (Cornell University)|2018. 03. 27.
Adversarial Robustness in Machine Learning인용 수 31
한 줄 요약

DRACO는 악성 계산 노드를 견디는 동시에 적대자 없는 훈련과 동일한 모델을 유지하는 비잔티노스에 강건한 분산 훈련 프레임워크이다. 오류 복구를 위한 디코딩을 가능하게 하는 중복 비율을 갖춘 코딩 이론적 중복을 사용함으로써, 기하 평균 기반 방법에 비해 수개의 주기 빠른 훈련을 달성하며, 실제 환경에서는 거의 영향을 주지 않는 오버헤드를 가진다.

ABSTRACT

Distributed model training is vulnerable to byzantine system failures and adversarial compute nodes, i.e., nodes that use malicious updates to corrupt the global model stored at a parameter server (PS). To guarantee some form of robustness, recent work suggests using variants of the geometric median as an aggregation rule, in place of gradient averaging. Unfortunately, median-based rules can incur a prohibitive computational overhead in large-scale settings, and their convergence guarantees often require strong assumptions. In this work, we present DRACO, a scalable framework for robust distributed training that uses ideas from coding theory. In DRACO, each compute node evaluates redundant gradients that are used by the parameter server to eliminate the effects of adversarial updates. DRACO comes with problem-independent robustness guarantees, and the model that it trains is identical to the one trained in the adversary-free setup. We provide extensive experiments on real datasets and distributed setups across a variety of large-scale models, where we show that DRACO is several times, to orders of magnitude faster than median-based approaches.

연구 동기 및 목표

  • 악성 기울기를 주입하는 비잔티노스 실패 및 적대적 계산 노드로 인한 분산 훈련의 취약성 해결.
  • 대규모 환경에서 기하 평균 기반 집합의 금지된 계산 비용을 극복.
  • 모델에 종속되지 않는 강건성 보장을 제공하며, 적대자 없는 훈련과 동일한 수렴 성능 확보.
  • 다양한 최적화 알고리즘(예: SGD, GD, SVRG)에 적용 가능한 확장성 있고 효율적인 프레임워크 설계.

제안 방법

  • 각 계산 노드에 다중 중복 기울기를 할당하여 알고리즘적 중복을 사용함으로써 노드당 계산 부담을 중복 비율 r만큼 증가.
  • 분할 반복 또는 순환 반복 코드를 사용해 기울기 업데이트를 인코딩하여 파rameter 서버에서 오류 탐지 및 복구 가능.
  • 다수결 투표 디코더 또는 새로운 푸리에 기반 디코딩 기법을 사용해 집합된 기울기 합을 디코딩하여 최대 (r−1)/2개의 악성 노드가 존재하더라도 정확한 합 복구.
  • 최종 모델이 적대자 없는 환경에서 훈련한 모델과 동일하게 유지되어 블랙박스 수렴 보장 가능.
  • 적대자에 대한 정보 이론적 최적성을 확보하기 위해 중복 비율 r를 조정.
  • PyTorch에 프레임워크를 구현하고 Amazon EC2에 배포하여 다양한 모델과 데이터셋에서 실제 환경 평가 수행.

실험 결과

연구 질문

  • RQ1기하 평균 기반 접근 방식에 비해 계산 오버헤드를 최소화하면서 분산 훈련 시스템이 비잔티노스에 강건하게 작동할 수 있는가?
  • RQ2적대자 없는 설정과 동일한 모델을 유지하면서도 악성 업데이트를 견딜 수 있는 프레임워크를 설계할 수 있는가?
  • RQ3코딩 이론적 기법을 효과적으로 적응시켜 악성 조건 하에서도 효율적이고 확장 가능한 기울기 집합을 달성할 수 있는가?
  • RQ4증가하는 악성 노드 수와 모델 복잡도에 따라 제안된 중복 기반 방법의 성능가 어떻게 스케일링되는가?
  • RQ5실제 분산 환경에서 중복 비율과 종단 간 훈련 속도 사이의 상충 관계는 어떠한가?

주요 결과

  • DRACO는 기하 평균 기반 방법에 비해 훈련 시간을 수개의 주기 빠르게 줄였으며, GM 방법의 디코딩 비용이 훈련 시간을 지배한다.
  • 11.1%의 악성 노드가 있는 ResNet-152에서, DRACO의 순환 인코딩 방식은 1회 반복당 23.08초를 기록했고, GM 방법은 212.31초를 기록했다.
  • VGG-19에서는 DRACO의 순환 코드가 1회 반복당 총 3.08초가 소요되었고, GM은 74.63초가 소요되어 디코딩 오버헤드에서 24배의 성능 향상을 보였다.
  • DRACO의 총 런타임은 악성 노드 수가 증가함에 따라 거의 증가하지 않으며, 통신 비용이 주요 비용이기 때문에 46.7%의 악성 노드가 존재하더라도 안정성을 유지한다.
  • DRACO의 인코딩 및 디코딩 오버헤드는 기하 평균 계산에 비해 거의 무시할 수 있으며, 대규모 시스템에 실용적이다.
  • DRACO는 중복 비율에서 정보 이론적 최적성을 달성하여 최소한의 중복량으로 최대 (r−1)/2개의 악성 노드를 견딜 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.