QUICK REVIEW

[논문 리뷰] Distributed Learning over Unreliable Networks

Chen Yu, Hanlin Tang|arXiv (Cornell University)|2018. 10. 17.

Age of Information Optimization인용 수 21

한 줄 요약

이 논문은 각 통신이 비제로 확률 $p$로 손실될 수 있는 비신뢰성 있는 네트워크에서 분산 확률적 경사 하강법(Distributed Stochastic Gradient Descent, SGD)에 대한 새로운 이론적 분석을 제안한다. 수렴가능성이 신뢰성 있는 네트워크와 유사한 속도로 확보됨을 보이며, 서버 수가 증가할수록 패킷 손실의 영향이 감소함을 보여, 실세계의 공유 네트워크 환경에서도 강건한 학습이 가능함을 시사한다.

ABSTRACT

Most of today's distributed machine learning systems assume {\em reliable networks}: whenever two machines exchange information (e.g., gradients or models), the network should guarantee the delivery of the message. At the same time, recent work exhibits the impressive tolerance of machine learning algorithms to errors or noise arising from relaxed communication or synchronization. In this paper, we connect these two trends, and consider the following question: {\em Can we design machine learning systems that are tolerant to network unreliability during training?} With this motivation, we focus on a theoretical problem of independent interest---given a standard distributed parameter server architecture, if every communication between the worker and the server has a non-zero probability $p$ of being dropped, does there exist an algorithm that still converges, and at what speed? The technical contribution of this paper is a novel theoretical analysis proving that distributed learning over unreliable network can achieve comparable convergence rate to centralized or distributed learning over reliable networks. Further, we prove that the influence of the packet drop rate diminishes with the growth of the number of extcolor{black}{parameter servers}. We map this theoretical result onto a real-world scenario, training deep neural networks over an unreliable network layer, and conduct network simulation to validate the system improvement by allowing the networks to be unreliable.

연구 동기 및 목표

작업자와 파라미터 서버 간의 메시지가 비율 $p$로 손실될 수 있는 비신뢰성 있는 네트워크 조건에서 분산 머신러닝이 수렴 가능한지 조사하기 위해.
이론적 프레임워크 내에서 비신뢰성 있는 통신 조건 하에서 수정된 파라미터 서버 알고리즘(RPS)의 수렴 행동을 분석하기 위해.
패킷 손실률 $p$가 수렴에 어떤 영향을 미치는지 정량화하고, 더 많은 파라미터 서버에서 이 영향이 줄어드는지 분석하기 위해.
공유 네트워크 자원을 가진 실질적인 데이터센터 시나리오에서 네트워크 시뮬레이션을 통해 이론적 결과를 검증하기 위해.
공동 배치된 워크로드가 있는 공유 데이터센터 환경에서 네트워크 비신뢰성을 허용함으로써 전체 시스템 성능 향상을 도모할 수 있는 실용적 이점을 탐색하기 위해.

제안 방법

신뢰성 없는 통신을 다루기 위해 작업자 서브셋을 무작위로 선택하여 Reduce-Scatter 및 All-Gather 단계를 수행하는 중심화된 SGD의 수정된 버전인 RPS(Reliable-Parameter-Server) 알고리즘을 제안한다.
각 메시지가 독립적으로 확률 $p$로 손실되는 것으로 모델링한 비신뢰성 통신을 분석하고, 집계 과정에서의 기대 업데이트 가중치를 분석한다.
랜덤 선택과 패킷 손실을 고려하여 업데이트 가중치의 두 번째 모멘트를 분석함으로써 RPS의 이론적 수렴 경계를 유도한다.
조건부 기대값과 분산 분해를 사용하여 다양한 네트워크 상태에서 업데이트 벡터의 기대 제곱 노름을 경계한다.
다양한 네트워크 조건 하에서 업데이트 가중치의 복잡한 기대값을 나타내기 위해 $T_1$, $T_2$, $T_3$ 등의 핵심 용어를 도입한다.
실제 데이터센터 환경에서의 네트워크 시뮬레이션을 통해 이론적 결과를 검증하였으며, 머신러닝 트래픽이 패킷 손실을 수용할 경우 더 높은 우선순위의 트래픽을 위한 성능 향상이 가능함을 보였다.

실험 결과

연구 질문

RQ1모든 작업자와 파라미터 서버 간의 통신이 비제로 확률 $p$로 손실될 수 있는 조건에서 분산 SGD가 수렴 가능한가?
RQ2비신뢰성 있는 통신 조건 하에서 분산 학습의 이론적 수렴 속도는 무엇이며, 신뢰성 있는 네트워크와 비교해 볼 때 어떻게 되는가?
RQ3파라미터 서버 수가 증가함에 따라 패킷 손실률 $p$의 영향은 어떻게 변화하는가?
RQ4공동 배치된 워크로드가 있는 공유 데이터센터 환경에서 네트워크 비신뢰성을 허용하면 전체 시스템 성능 향상이 가능할 수 있는가?
RQ5RPS 알고리즘이 신뢰성 있는 통신 조건에서 표준 분산 SGD와 유사한 수렴 성질을 유지하는가?

주요 결과

RPS 알고리즘은 비제로 패킷 손실 조건에서도 중심화되거나 분산된 학습이 신뢰성 있는 네트워크에서 기대하는 것과 유사한 수렴 속도를 달성한다.
패킷 손실률 $p$의 영향은 파라미터 서버 수가 증가함에 따라 감소하여 수렴에 대한 영향력이 줄어든다.
이론적 분석 결과, 업데이트 벡터의 기대 제곱 노름이 유한하게 유지되어 비신뢰성 모델 하에서도 수렴이 보장됨을 보여준다.
시뮬레이션 결과는 네트워크 비신뢰성을 허용함으로써 다른 애플리케이션을 위한 고우선순위 트래픽을 가능하게 하여 전체 시스템 성능 향상이 가능함을 확인한다.
유도된 수렴 경계는 $p$와 $n$ (서버 수)에 의존하며, 주로 패킷 손실의 영향을 반영하는 항 $p(1+2T_3)$가 지배적이며, 이는 $n$이 증가함에 따라 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.