QUICK REVIEW

[논문 리뷰] Decoupled Parallel Backpropagation with Convergence Guarantee

Zhouyuan Huo, Bin Gu|arXiv (Cornell University)|2018. 04. 27.

Stochastic Gradient Optimization Techniques인용 수 32

한 줄 요약

이 논문은 딥 네URAL 네트워크에서 백워드 락킹을 제거하기 위해 지연된 그래디언트를 사용하는 병렬 백프로파게이션 방법인 디커플드 딜레이드 그래디언트(DDG)를 제안한다. 이는 전체 GPU 활용을 가능하게 하며, 비볼록 문제에 대해 임계점으로의 수렴을 보장하며, ResNet-56 및 ResNet-110에서 정확도 손실 없이 4개 GPU에서 최대 2배의 속도 향상을 달성한다.

ABSTRACT

Backpropagation algorithm is indispensable for the training of feedforward neural networks. It requires propagating error gradients sequentially from the output layer all the way back to the input layer. The backward locking in backpropagation algorithm constrains us from updating network layers in parallel and fully leveraging the computing resources. Recently, several algorithms have been proposed for breaking the backward locking. However, their performances degrade seriously when networks are deep. In this paper, we propose decoupled parallel backpropagation algorithm for deep learning optimization with convergence guarantee. Firstly, we decouple the backpropagation algorithm using delayed gradients, and show that the backward locking is removed when we split the networks into multiple modules. Then, we utilize decoupled parallel backpropagation in two stochastic methods and prove that our method guarantees convergence to critical points for the non-convex problem. Finally, we perform experiments for training deep convolutional neural networks on benchmark datasets. The experimental results not only confirm our theoretical analysis, but also demonstrate that the proposed method can achieve significant speedup without loss of accuracy.

연구 동기 및 목표

딥 네URAL 네트워크에서 병렬 훈련을 제한하는 백프로파게이션의 백워드 락킹 버티브를 해결한다.
네트워크 모듈 간 그래디언트 계산을 분리하여 다중 GPU 시스템의 전체 활용을 가능하게 한다.
훈련 정확도를 유지하면서도 딥 네트워크의 훈련 시간을 크게 단축할 수 있는 방법을 개발한다.
딥 러닝의 비볼록 최적화 문제에 대해 이론적 수렴 보장을 제공한다.
다양한 네트워크 깊이와 분할 구성에서의 확장성과 강건성을 입증한다.

제안 방법

지연된 그래디언트를 도입하여 백프로파게이션 과정을 분리함으로써, 각 네트워크 모듈이 상游 종속성을 기다리지 않고 독립적으로 그래디언트를 계산할 수 있도록 한다.
네트워크를 K개의 모듈로 분할하고 각 모듈을 별도의 GPU에 할당하여 동시적인 포워드 및 백워드 패스를 가능하게 한다.
지연된 그래디언트를 통합한 두 가지 확률적 최적화 방법—확률적 경사 하강법 및 그 변종—을 사용하여 가중치를 병렬로 업데이트한다.
지연된 그래디언트 근사치를 사용하는 최적화 문제를 수립하고, 약한 가정 하에 임계점으로의 수렴을 증명한다.
이전 반복에서의 역사적 정보를 사용하여 진정한 그래디언트를 근사하는 지연 그래디언트 업데이트 규칙을 도입한다.
지연 시간을 제한하고 모듈 수 K가 수렴 속도에 미치는 영향을 분석함으로써 안정성과 수렴성을 확보한다.

실험 결과

연구 질문

RQ1딥 네트워크에서 정확도 손실 없이 백프로파게이션의 백워드 락킹을 제거할 수 있는가?
RQ2분리된 프레임워크에서 지연 그래디언트를 사용할 경우 비볼록 딥 러닝 문제에 대해 수렴 보장이 이루어지는가?
RQ3네트워크 분할 수(K)가 수렴 속도와 모델 성능에 어떤 영향을 미치는가?
RQ4제안된 방법은 총 훈련 시간을 단축하면서도 여러 GPU에서 효율적으로 확장 가능한가?
RQ5딥 아키텍처에서 정확도와 안정성 측면에서 DNI 및 합성 그래디언트 방법과 비교해 볼 때, 이 방법은 어떻게 다른가?

주요 결과

4개 GPU에서 ResNet-110을 훈련할 경우 DDG는 표준 백프로파게이션 대비 최대 2배의 속도 향상을 달성하며, 총 계산 시간을 30~50% 감소시킨다.
CIFAR-10 및 CIFAR-100에서 DDG는 표준 백프로파게이션과 유사하거나 略적으로 높은 Top-1 정확도를 유지한다(예: CIFAR-10에서 ResNet-110 기준 93.53% 대비 93.41%).
DNI와 달리, 더 깊은 레이어(예: 레이어 7)에 분할 지점을 둘 경우에도 DDG는 안정적으로 수렴한다.
K=2에서 4까지의 다양한 분할 수에 대해 일관된 성능을 유지하여 아키텍처 분할에 대한 강건성을 보여준다.
표준 백프로파게이션에서 포워드 패스 시간은 총 훈련 시간의 약 32%에 불과하여, 백워드 락킹이 주요 버티브임을 확인한다.
DDG는 GPU 자원을 완전히 활용하여 약 70%의 변동성 GPU 활용도를 달성한다. 반면 표준 백프로파게이션은 순차적 종속성으로 인해 GPU가 비활성화되는 시간이 발생한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.