QUICK REVIEW

[논문 리뷰] Variance Reduced EXTRA and DIGing and Their Optimal Acceleration for Strongly Convex Decentralized Optimization

Huan Li, Zhouchen Lin|arXiv (Cornell University)|2020. 09. 09.

Stochastic Gradient Optimization Techniques참고 문헌 52인용 수 23

한 줄 요약

이 논문은 분산 최적화 알고리즘 EXTRA 및 DIGing의 분산 감소 및 가속 버전인 VR-EXTRA, VR-DIGing, Acc-VR-EXTRA, Acc-VR-DIGing을 제안하여 강凸 문제에서 최적의 수렴 속도를 달성한다. 이는 스위치 그래디언트 평가 수와 커뮤니케이션 라운드 수 모두에서 최적화된 성능을 보이며, 단일 머신 및 전체 배치 분산 최적화 방법의 최고 성능과 동일한 복잡도를 달성한다. 따라서 이는 동시에 커뮤니케이션 및 계산 효율성을 최적화하는 최초의 그래디언트 유형 알고리즘이다.

ABSTRACT

We study stochastic decentralized optimization for the problem of training machine learning models with large-scale distributed data. We extend the widely used EXTRA and DIGing methods with variance reduction (VR), and propose two methods: VR-EXTRA and VR-DIGing. The proposed VR-EXTRA requires the time of $O((κ_s+n)\log\frac{1}ε)$ stochastic gradient evaluations and $O((κ_b+κ_c)\log\frac{1}ε)$ communication rounds to reach precision $ε$, which are the best complexities among the non-accelerated gradient-type methods, where $κ_s$ and $κ_b$ are the stochastic condition number and batch condition number for strongly convex and smooth problems, respectively, $κ_c$ is the condition number of the communication network, and $n$ is the sample size on each distributed node. The proposed VR-DIGing has a little higher communication cost of $O((κ_b+κ_c^2)\log\frac{1}ε)$. Our stochastic gradient computation complexities are the same as the ones of single-machine VR methods, such as SAG, SAGA, and SVRG, and our communication complexities keep the same as those of EXTRA and DIGing, respectively. To further speed up the convergence, we also propose the accelerated VR-EXTRA and VR-DIGing with both the optimal $O((\sqrt{nκ_s}+n)\log\frac{1}ε)$ stochastic gradient computation complexity and $O(\sqrt{κ_bκ_c}\log\frac{1}ε)$ communication complexity. Our stochastic gradient computation complexity is also the same as the ones of single-machine accelerated VR methods, such as Katyusha, and our communication complexity keeps the same as those of accelerated full batch decentralized methods, such as MSDA.

연구 동기 및 목표

대규모 분산 데이터를 가진 분산 머신러닝에서 전체 배치 그래디언트 계산의 높은 계산 비용을 해결하기 위해.
분산 스위치 최적화에서 수렴 복잡도의 격차를 좁혀, 분산 스위치 최적화에서 최적의 스위치 그래디언트 평가 수와 커뮤니케이션 라운드 수를 달성하기 위해.
광범위하게 사용되는 EXTRA 및 DIGing 알고리즘에 분산 감소 및 가속 기법을 통합하면서도 최적의 수렴 속도를 유지하기 위해.
전체 네트워크나 다른 노드에 대한 전역 지식 없이도 로컬 노드의 파라미터에만 의존하는 실용적인 알고리즘을 설계하기 위해.
DIGing의 커뮤니케이션 복잡도를 O((κ_b + κ_c²) log(1/ε))에서 O((κ_b + κ_c) log(1/ε))로 향상시킬 수 있는지 조사하기 위해.

제안 방법

EXTRA 및 DIGing 프레임워크에 분산 감소 기법을 통합하여 VR-EXTRA 및 VR-DIGing를 제안하며, 로컬 그래디언트 트래킹과 샘플링을 통해 스위치 그래디언트의 분산을 감소시킨다.
기존의 공감 기반 업데이트 규칙을 수정하여, 과거 그래디언트의 메모리를 활용함으로써 각 반복에서 그래디언트 분산을 줄이고 동시에 전역 수렴성을 유지한다.
네트워크 조건수 κ_c와 배치 조건수 κ_b를 분석하여 커뮤니케이션 복잡도의 상한선을 유도하며, VR-EXTRA의 경우 O((κ_b + κ_c) log(1/ε))와 VR-DIGing의 경우 O((κ_b + κ_c²) log(1/ε))의 복잡도를 도출한다.
Nesterov 스타일의 모멘타ム과 분산 감소 모멘타ム 단계를 사용한 가속 버전을 제안하여, O(√(nκ_s) + n)의 스위치 그래디언트 평가 수와 O(√(κ_b κ_c) log(1/ε))의 커뮤니케이션 라운드를 달성한다.
로컬 노드의 특성(L_(i), μ_(i))에 따라 파라미터 설정을 조정하여 실용성을 향상시키고, 전체 네트워크 지식 의존도를 줄인다.
강凸성과 미끄러움 조건을 가정한 하향식 최적화 분석을 가능하게 하기 위해, 확장 라그랑주 및 그래디언트 트래킹을 통한 분산 문제의 재정의를 수행한다.

실험 결과

연구 질문

RQ1VR-EXTRA 및 VR-DIGing에 분산 감소를 효과적으로 통합하여, 단일 머신 VR 방법과 동일한 최적의 스위치 그래디언트 평가 복잡도를 달성할 수 있는가?
RQ2VR-DIGing의 커뮤니케이션 복잡도를 VR-EXTRA와 동일한 수준으로 향상시킬 수 있는가, 즉 O((κ_b + κ_c) log(1/ε))로 줄일 수 있는가?
RQ3VR-EXTRA 및 VR-DIGing의 가속 버전이 동시에 최적의 스위치 그래디언트 및 커뮤니케이션 복잡도를 달성할 수 있는가?
RQ4제안된 가속 방법이 MSDA와 같은 최고 수준의 전체 배치 분산 알고리즘의 수렴 속도를 따라잡으면서도 스위치 방법의 효율성을 유지할 수 있는가?
RQ5이론적으로 최적인 Acc-VR-EXTRA-CA 및 Acc-VR-DIGing-CA 버전이 하한선을 충족하고도 실질적으로는 성능이 열 劣하는 이유는 무엇인가?

주요 결과

VR-EXTRA는 O((κ_s + n) log(1/ε))의 스위치 그래디언트 평가 수와 O((κ_b + κ_c) log(1/ε))의 커뮤니케이션 라운드를 달성하며, 비가속화된 최고 성능과 일치한다.
VR-DIGing의 커뮤니케이션 복잡도는 O((κ_b + κ_c²) log(1/ε))이며, DIGing의 그래디언트 트래킹 구조로 인해 약간 더 열 劣한 편이다.
가속 버전인 Acc-VR-EXTRA 및 Acc-VR-DIGing는 각각 O((√(nκ_s) + n) log(1/ε))의 스위치 그래디언트 평가 수와 O(√(κ_b κ_c) log(1/ε))의 커뮤니케이션 라운드를 달성하며, 단일 머신 및 전체 배치 방법의 하한선과 일치한다.
실험 결과, Acc-VR-EXTRA는 커뮤니케이션 비용에서 최적의 전체 배치 APAPC 방법과 유사한 성능을 보이며, 이론적 커뮤니케이션 복잡도 동등성을 확인한다.
κ_s ≫ n 인 경우, 가속 방법은 비가속화된 버전보다 뚜렷한 성능 향상을 보이며, κ_s ≈ 10n 인 경우는 성능 향상이 미미하여, 가속 기법이 조건수 조건이 높은 영역에서 가장 효과적임을 시사한다.
이론적으로 최적인 Acc-VR-EXTRA-CA 및 Acc-VR-DIGing-CA는 실질적으로는 파라미터 튜닝에 민감하여 성능이 열 劣하는 경향이 있으며, 이는 이론과 실무 간 격차를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.