Skip to main content
QUICK REVIEW

[논문 리뷰] D$^2$: Decentralized Training over Decentralized Data

Hanlin Tang, Xiangru Lian|arXiv (Cornell University)|2018. 03. 19.
Stochastic Gradient Optimization Techniques참고 문헌 35인용 수 185
한 줄 요약

D$^2$는 D-PSGD의 분산-감소 확장으로, 작업자 간 높은 데이터 분산에 견고하며 D-PSGD보다 더 빠른 수렴을 달성하고 중앙 집중형 SGD 성능에 근접합니다.

ABSTRACT

While training a machine learning model using multiple workers, each of which collects data from their own data sources, it would be most useful when the data collected from different workers can be {\em unique} and {\em different}. Ironically, recent analysis of decentralized parallel stochastic gradient descent (D-PSGD) relies on the assumption that the data hosted on different workers are {\em not too different}. In this paper, we ask the question: {\em Can we design a decentralized parallel stochastic gradient descent algorithm that is less sensitive to the data variance across workers?} In this paper, we present D$^2$, a novel decentralized parallel stochastic gradient descent algorithm designed for large data variance \xr{among workers} (imprecisely, "decentralized" data). The core of D$^2$ is a variance blackuction extension of the standard D-PSGD algorithm, which improves the convergence rate from $O\left({σ\over \sqrt{nT}} + {(nζ^2)^{\frac{1}{3}} \over T^{2/3}} ight)$ to $O\left({σ\over \sqrt{nT}} ight)$ where $ζ^{2}$ denotes the variance among data on different workers. As a result, D$^2$ is robust to data variance among workers. We empirically evaluated D$^2$ on image classification tasks where each worker has access to only the data of a limited set of labels, and find that D$^2$ significantly outperforms D-PSGD.

연구 동기 및 목표

  • 작업자 간 데이터가 매우 동일하지 않을 때 분산 학습의 필요성을 제시한다.
  • 외부 분산 영향 감소를 위해 D-PSGD에 통합된 분산-감소 메커니즘을 개발한다.
  • 수렴 보장이 이뤄져 향상된 수렴 속도를 이론적으로 입증한다.
  • 라벨 분포가 비균일한 이미지 분류 작업에서 D$^2$를 실험적으로 검증한다.

제안 방법

  • 마지막 반복에서의 그래디언트와 로컬 모델을 저장하고 이를 현재 그래디언트 및 모델과 선형으로 결합하여 D-PSGD에 분산-감소 구성요소를 확장한다.
  • 업데이트 규칙은 현재 및 이전 그래디언트의 조합으로 로컬 업데이트를 집계하여 작업자 간 데이터 분산을 완화한다.
  • X_{t+1} = (2X_t - X_{t-1} - γG(X_t; ξ_t) + γG(X_{t-1}; ξ_{t-1}))W를 글로벌 업데이트 표현으로 제공한다.
  • 평균 반복이 분산 감소 동역학을 따름을 보여주며, 작업자 간의 전역 데이터 분산 ζ^2에 독립적인 향상된 수렴을 야기한다.
  • 가정으로 Lipschitz 그래디언트, 개별 작업자 분산의 한계, 스펙트럼 간극이 있는 대칭 합의 행렬, 네트워크 토폴로지 고려사항 등을 기술한다.
  • 이론적 수렴 보장 및 D-PSGD에 비해 속도 개선을 입증하는 코롤러리들을 제시한다.

실험 결과

연구 질문

  • RQ1작업자 간 큰 데이터 분산에 강건하도록 분산 SGD 알고리즘을 설계할 수 있는가?
  • RQ2D-PSGD에 분산 감소 전략을 통합하면 수렴 속도가 O(σ/√(nT)) + O((nζ^2)^{1/3}/T^{2/3})에서 O(σ/√(nT))로 개선되는가?
  • RQ3작업자 수에 대해 D$^2$가 선형 스피드업을 달성하는 조건은 무엇인가?
  • RQ4작업자들이 중첩되지 않는 또는 라벨이 제한된 데이터셋을 보유할 때 D$^2$의 실험적 성능은 D-PSGD 및 중앙 집중식 SGD와 비교하여 어떤가?

주요 결과

  • D$^2$는 O(σ/√(nT))의 수렴 속도를 달성하는 반면, D-PSGD의 속도는 외부 분산 ζ^2에 의존한다.
  • 분산-감소 구성요소가 근사치에서 전역 데이터 분산에 대한 의존성을 제거한다.
  • 적절한 조건에서 이론적 결과가 작업자 수에 대해 선형 스피드업을 보인다.
  • 작업자별 제한 라벨 데이터를 가진 이미지 분류 작업에 대한 실험에서 D$^2$는 D-PSGD보다 현저히 우수하고, 특히 비셔플(고분산) 설정에서 중앙 집중식 성능에 근접한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.