QUICK REVIEW

[논문 리뷰] A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable Optimization Via Overparameterization From Depth

Yiping Lu, Chao Ma|arXiv (Cornell University)|2020. 03. 11.

Stochastic Gradient Optimization Techniques참고 문헌 48인용 수 26

한 줄 요약

이 논문은 깊이에 따른 과다매개변수화를 통해, 각 잔차 블록을 분포 내의 입자로 간주함으로써, 볼록성 가정 없이도 전역 수렴 보장을 갖는 새로운 평균장 미분방정식(OED) 모델을 제안한다. 평균장 한계에서 모든 국소 최소화점이 영 손실을 가짐을 보여, 깊이에 의한 과다매개변수화를 통한 평균장 영역에서 다층 신경망에 대한 첫 번째 전역 수렴 결과를 확립한다.

ABSTRACT

Training deep neural networks with stochastic gradient descent (SGD) can often achieve zero training loss on real-world tasks although the optimization landscape is known to be highly non-convex. To understand the success of SGD for training deep neural networks, this work presents a mean-field analysis of deep residual networks, based on a line of works that interpret the continuum limit of the deep residual network as an ordinary differential equation when the network capacity tends to infinity. Specifically, we propose a new continuum limit of deep residual networks, which enjoys a good landscape in the sense that every local minimizer is global. This characterization enables us to derive the first global convergence result for multilayer neural networks in the mean-field regime. Furthermore, without assuming the convexity of the loss landscape, our proof relies on a zero-loss assumption at the global minimizer that can be achieved when the model shares a universal approximation property. Key to our result is the observation that a deep residual network resembles a shallow network ensemble, i.e. a two-layer network. We bound the difference between the shallow network and our ResNet model via the adjoint sensitivity method, which enables us to apply existing mean-field analyses of two-layer networks to deep networks. Furthermore, we propose several novel training schemes based on the new continuous model, including one training procedure that switches the order of the residual blocks and results in strong empirical performance on the benchmark datasets.

연구 동기 및 목표

깊은 ResNets 학습에서 SGD의 경험적 성공성과 비볼록, 과다매개변수화된 설정에서의 전역 수렴 보장 부족 사이의 이론적 격차를 메우기 위해.
잔차 블록 매개변수 분포의 기울기 흐름을 통해 학습 동역학을 기반으로 하는 연속적 평균장 미분방정식(OED) 모델을 개발하기 위해.
비볼록성에도 불구하고, 평균장 한계에서 모든 국소 최소화점이 영 손실을 가진 전역 최소화점과 대응됨을 입증하기 위해.
깊은 ResNets와 두 층의 과다매개변수화된 네트워크 앙상블 간의 등가성을 활용해 새로운 학습 방법을 가능하게 하기 위해.
‘게으른’ 또는 커널 영역을 초월한 깊은 네트워크 최적화의 이론적 기반을 제공하기 위해.

제안 방법

깊은 ResNets의 새로운 연속 근사로 평균장 미분방정식을 수식화: $\dot{X}_{\rho}(x,t) = \int_{\theta} f(X_{\rho}(x,t), \theta) \rho(\theta,t) d\theta$, 여기서 $\rho(\theta,t)$는 깊이에 따른 잔차 블록 매개변수의 분포이다.
첨수 감도 방법을 사용하여 깊은 ResNets의 기울기와 두 층의 과다매개변수화된 네트워크의 기울기 간 차이를 유계화함으로써, 동일한 손실 수준에서 두 기울기가 유사함을 보였다.
기존의 두 층 네트워크에 대한 평균장 분석을 활용하여 수렴 보장을 깊은 ResNets 모델로 이 trasfer하였다.
잔차 블록을 정렬하는 방식으로 재정렬하는 새로운 학습 방법을 제안하였으며, 이는 추가 계산 비용 없이도 경험적 성능을 향상시킨다.
평균장 모델에서 워샤프스키 기울기 흐름의 전연 지원 정적 점이 비볼록성 없이도 전역 최적점임을 입증하였다.
전역 최소화점에서 영 손실을 가진다는 가정을 사용하였으며, 이는 모델의 보편 근사 성질에 의해 성립한다.

실험 결과

연구 질문

RQ1비볼록성 조건 없이도 손실 표면가 전역 수렴을 보장하는 깊은 ResNets의 평균장 미분방정식 모델을 구성할 수 있는가?
RQ2깊은 ResNets의 기울기와 두 층의 과다매개변수화된 네트워크의 기울기 간 관계는 어떻게 되며, 이러한 관계는 전역 수렴 보장을 가능하게 하는가?
RQ3‘게으른’ 또는 커널 영역에 의존하지 않고, 깊이에 의한 과다매개변수화만으로도 깊은 네트워크의 유리한 최적화 표면가 형성되는가?
RQ4평균장 모델에서 유도된 새로운 학습 절차는 벤치마크 데이터셋에서 경험적 성능을 향상시킬 수 있는가?
RQ5잔차 블록 매개변수의 분포는 깊은 ResNets의 전역 최적성에 어떤 역할을 하는가?

주요 결과

제안된 깊은 ResNets의 평균장 미분방정식 모델은 모든 국소 최소화점이 영 손실을 가짐을 보여, 주어진 연속 근사 하에서 모든 국소 최적점이 전역 최적점임을 시사한다.
깊은 ResNets의 기울기가 동일한 손실 수준을 가진 두 층의 과다매개변수화된 네트워크의 기울기와 상수 인자 범위 내에서 유사함을 보였으며, 이는 수렴 보장을 이 trasfer할 수 있음을 의미한다.
비볼록성 가정 없이도 평균장 영역에서 다층 신경망에 대한 첫 번째 전역 수렴 결과를 확립하였다.
CIFAR-10 및 CIFAR-100에서의 경험적 결과는 제안된 평균장 학습 방식이 표준 SGD를 항상 능가하며, ResNet 및 ResNeXt 아키텍처에서 테스트 정확도가 0.25%에서 0.55%까지 향상됨을 보였다.
잔차 블록을 재정렬하는 새로운 학습 방법은 추가 계산 비용 없이도 더 뛰어난 경험적 성능을 달성하였으며, 이는 구조적 재정렬이 최적화를 향상시킬 수 있음을 시사한다.
분석 결과 깊은 ResNets가 높은 비볼록성에도 불구하고 얕은 네트워크 앙상블처럼 행동함을 밝혀내었으며, 이는 그 유리한 최적화 성질을 설명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.