QUICK REVIEW

[논문 리뷰] Anytime MiniBatch: Exploiting Stragglers in Online Distributed Optimization

Nuwan S. Ferdinand, Haider Al-Lawati|arXiv (Cornell University)|2020. 06. 10.

Stochastic Gradient Optimization Techniques인용 수 26

한 줄 요약

이 논문은 각 에포크당 계산 시간을 고정함으로써 미니배치 크기 대신 계산 시간을 고정하는 분산 온라인 최적화 방법인 Anytime MiniBatch(AMB)를 제안한다. 이는 빠른 작업자와 느린 작업자가 서로 다른 기여를 할 수 있도록 하여 시스템의 정지 없이 운영되게 한다. 느린 작업자로부터 부분적인 작업을 활용하고 공감 기반의 기울기 평균화를 사용함으로써, 고성능 변동성이 큰 환경에서 고정된 미니배치 방법 대비 최대 5배 빠른 수렴 속도를 달성하며, 최적의 위험 수렴 속도 $\mathcal{O}(\sqrt{\bar{m}})$ 를 확보한다.

ABSTRACT

Distributed optimization is vital in solving large-scale machine learning problems. A widely-shared feature of distributed optimization techniques is the requirement that all nodes complete their assigned tasks in each computational epoch before the system can proceed to the next epoch. In such settings, slow nodes, called stragglers, can greatly slow progress. To mitigate the impact of stragglers, we propose an online distributed optimization method called Anytime Minibatch. In this approach, all nodes are given a fixed time to compute the gradients of as many data samples as possible. The result is a variable per-node minibatch size. Workers then get a fixed communication time to average their minibatch gradients via several rounds of consensus, which are then used to update primal variables via dual averaging. Anytime Minibatch prevents stragglers from holding up the system without wasting the work that stragglers can complete. We present a convergence analysis and analyze the wall time performance. Our numerical results show that our approach is up to 1.5 times faster in Amazon EC2 and it is up to five times faster when there is greater variability in compute node performance.

연구 동기 및 목표

느린 노드가 동기화를 지연시키는 분산 온라인 최적화에서 발생하는 성능 저하 문제를 해결하기 위해.
버려지는 대신 부분적인 작업을 활용함으로써 시스템 효율성을 향상시키기 위해.
이질적인 컴퓨팅 환경에서 벽시계 시간을 최소화하면서 최적의 위험 수렴 속도 ($\mathcal{O}(\sqrt{\bar{m}})$) 를 달성하기 위해.
실제 클라우드 및 HPC 플랫폼에서 유도된 느린 작업자 효과가 있는 환경에서 고정된 미니배치 방법 대비 뚜렷한 성능 향상을 입증하기 위해.

제안 방법

각 워커의 에포크당 계산 시간 ($T$) 을 고정함으로써, 각 노드가 이 시간 내에 처리할 수 있는 샘플 수에 따라 변동하는 미니배치 크기를 허용한다.
계산 후, 모든 워커가 고정된 통신 시간 ($T_c$) 동안 이중 변수에 대한 공감 평균화를 수행하여 기울기를 동기화한다.
수집된 이중 정보를 기반으로 이중 평균화를 사용해 원래 변수를 업데이트함으로써, 각 노드의 데이터 기여도가 다를 수 있는 온라인 최적화를 가능하게 한다.
정규 분포를 사용하여 시간에 따라 변하는 이질적인 노드 성능을 모델링하여 실험에서 느린 작업자를 시뮬레이션한다.
마스터-워커 및 완전히 분산된 아키텍처 모두에 이 방법을 적용하며, 기울기 기반 업데이트를 사용하는 확률적 볼록 최적화에 집중한다.
온라인 위험 수렴을 분석하고 이론적 경계를 유도함으로써, 임의의 계산 시간 분포 하에서 고정된 미니배치 방법 대비 $\mathcal{O}(\sqrt{n-1})$ 의 벽시계 시간 성능 향상을 입증한다.

실험 결과

연구 질문

RQ1느린 작업자가 존재하는 환경에서, 고정된 미니배치 크기 대신 계산 시간을 고정함으로써 더 빠른 벽시계 수렴을 달성할 수 있는가?
RQ2실제 클라우드 및 HPC 환경에서 느린 작업자로부터 부분적인 작업을 활용하면 측정 가능한 성능 향상이 발생하는가?
RQ3온라인 위험 측면에서, 언제나 미니배치 방법의 이론적 수렴 속도는 무엇이며, 고정된 미니배치 기반 방법과 비교해 볼 때 어떻게 되는가?
RQ4노드 성능의 변동성이 증가함에 따라 AMB의 벽시계 성능 향상 비율은 어떻게 변화하는가?
RQ5변동하는 노드별 데이터 처리 능력에 적응하면서도 최적의 위험 성능 ($\mathcal{O}(\sqrt{\bar{m}})$) 을 유지할 수 있는가?

주요 결과

Amazon EC2 환경에서 중간 정도의 느린 작업자 영향을 받는 조건에서 AMB는 고정된 미니배치(FMB) 대비 최대 1.5배 빠른 수렴 속도를 달성했다.
성능 변동성이 큰 환경에서 AMB는 FMB 대비 최대 5배 빠른 수렴 속도를 보였으며, 동일한 오차율에 도달하는 데 HPC 플랫폼에서 2.45초 대비 12.7초가 소요되었다.
AMB의 경험적 평균 미니배치 크기는 약 504로, FMB 기준 500과 유사하여, 노드 속도의 변동에도 불구하고 균형 잡힌 데이터 활용이 이루어졌음을 확인했다.
AMB는 최적의 온라인 위험 성능 $\mathcal{O}(\sqrt{\bar{m}})$ 를 달성하였으며, 기울기 기반 알고리즘의 이론적 하한선과 일치하였다.
이론적 분석을 통해 AMB는 임의의 계산 시간 분포 하에서 고정된 미니배치 방법 대비 $\mathcal{O}(\sqrt{n-1})$ 의 벽시계 시간 성능 향상을 제공하는 것으로 입증되었다.
계산 시간과 미니배치 크기의 히스토그램 분석 결과, 빠른 노드는 더 많은 샘플을 처리하고 더 많은 반복을 수행한 반면, 느린 노드는 시스템을 멈추지 않고 부분적인 작업을 기여함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.