QUICK REVIEW

[논문 리뷰] Multi-consensus Decentralized Accelerated Gradient Descent

Haishan Ye, Luo Luo|arXiv (Cornell University)|2020. 05. 02.

Distributed Control Multi-Agent Systems참고 문헌 33인용 수 33

한 줄 요약

이 논문은 두 가지 분산 가속 근접 프로그랄(근접) 방법인 ProxMudag와 Mudag를 도입하여 글로벌 조건수에 의존하는 (거의) 최적의 계산 및 통신 복잡도에 도달하며, 로컬 함수의 비-볼록성 여부를 허용한다.

ABSTRACT

This paper considers the decentralized convex optimization problem, which has a wide range of applications in large-scale machine learning, sensor networks, and control theory. We propose novel algorithms that achieve optimal computation complexity and near optimal communication complexity. Our theoretical results give affirmative answers to the open problem on whether there exists an algorithm that can achieve a communication complexity (nearly) matching the lower bound depending on the global condition number instead of the local one. Furthermore, the linear convergence of our algorithms only depends on the strong convexity of global objective and it does \emph{not} require the local functions to be convex. The design of our methods relies on a novel integration of well-known techniques including Nesterov's acceleration, multi-consensus and gradient-tracking. Empirical studies show the outperformance of our methods for machine learning applications.

연구 동기 및 목표

에이전트 간 로컬 함수들을 합친 글로벌 목적함수를 가진 분산 Convex 최적화 문제를 다룬다.
글로벌 조건수에 의존하는 (거의) 최적의 통신 복잡도를 달성하는 알고리즘을 개발한다.
로컬 함수의 볼록성 요구를 완화하되 글로벌 강볼록성에서 선형 수렴을 유지한다.
다중 합의, 그래디언트 추적, Nesterov 가속을 도입하여 중앙집중식 가속 경사 하강법을 근사한다.
머신러닝 작업에서 제시된 방법들이 기존 방법들보다 우수함을 실험적으로 제시한다.

제안 방법

합성 목적함수 r(x)가 비미분 가능 규제항인 경우에 대한 ProxMudag를 제안한다; 근접 업데이트, 다중 합의, 그래디언트 추적 및 가속을 결합한다.
매끄러운 목적함수(r(x)=0)에 대해 Mudag를 제안한다; 중앙집중식 가속 경사 하강법을 모방하기 위해 이중 단계 다중 합의와 그래디언트 추적을 사용한다.
다중 합의를 구현하고 에이전트 간 합의를 보장하기 위해 FastMix를 효율적인 평균화 연산자로 사용한다.
Lyapunov 함수를 통한 수렴 분석을 통해 평균 시퀀스가 근접-가속 경사 역학을 따른다고 보인다.
복잡도는 O(sqrt(kappa_g) log(1/epsilon))이고 거의 최적의 통신 복잡도는 O(sqrt(kappa_g/(1-lambda2(W))) log(M kappa_g / L) log(1/epsilon))이다.
전진 반복 및 통신 한계를 글로벌 조건수 kappa_g = L/μ에 의존하도록 제시한다.

실험 결과

연구 질문

RQ1분산 최적화가 전역 조건수 κ_g에 의존하는 거의 최적의 통신 복잡도를 달성할 수 있는가, 로컬 κ_ℓ 대신?
RQ2각 로컬 함수 f_i가 볼록하지 않아도 분산 합성 목적함수에 대해 선형 수렴을 얻을 수 있는가?
RQ3다중 합의와 그래디언트 추적을 갖춘 가속 프로그래밍 전략이 분산 설정에서 중앙집중식 가속 방법을 근사하는 데 충분한가?
RQ4제시된 두 알고리즘 ProxMudag와 Mudag의 매끄러움 및 강볼록성 가정 하의 계산 및 통신 복잡도 트레이드오프는 무엇인가?

주요 결과

Mudag는 계산 복잡도 O(√κ_g log(1/ε))를 달성하고 거의 최적의 통신 복잡도 O(√(κ_g/(1−λ2(W))) log(Mκ_g/L) log(1/ε))를 달성한다.
ProxMudag는 구차하나 비미분 가능 r(x)에 대해 최적의 계산 및 거의 최적의 통신 복잡도를 달성한다.
알고리즘은 글로벌 조건수 κ_g에 의존하지 로컬 조건수에 의존하지 않는다는 점에서 분산 최적화의 미해결 질문을 다룬다.
알고리즘은 f_i가 비볼록이어도 글로벌 f가 μ-강볼록하고 L-매끄럽다는 조건 하에서 적용성을 넓힌다.
FastMix 및 그래디언트 추적이 중앙집중식 가속을 근사하도록 평균화와 그래디언트 추정치를 통합한다.
실험 결과 제안된 방법들이 머신러닝 작업에서 기존의 분산 방법들보다 우수함을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.