QUICK REVIEW

[논문 리뷰] No bad local minima: Data independent training error guarantees for multilayer neural networks

Daniel Soudry, Yair Carmon|arXiv (Cornell University)|2016. 05. 26.

Stochastic Gradient Optimization Techniques참고 문헌 22인용 수 159

한 줄 요약

이 논문은 매끄러운 분석을 사용하여, 과잉 매개화가 약한 경우에도 다층 신경망의 piecewise linear 활성화와 제곱 손실을 갖는 모든 differentiable 로컬 미니마가 훈련오차를 0으로 갖는다는 것을 먼저 한 개 숨겨진 층에 대해, 그리고 더 깊은 네트워크로 확장하여 증명한다.

ABSTRACT

We use smoothed analysis techniques to provide guarantees on the training loss of Multilayer Neural Networks (MNNs) at differentiable local minima. Specifically, we examine MNNs with piecewise linear activation functions, quadratic loss and a single output, under mild over-parametrization. We prove that for a MNN with one hidden layer, the training error is zero at every differentiable local minimum, for almost every dataset and dropout-like noise realization. We then extend these results to the case of more than one hidden layer. Our theoretical guarantees assume essentially nothing on the training data, and are verified numerically. These results suggest why the highly non-convex loss of such MNNs can be easily optimized using local updates (e.g., stochastic gradient descent), as observed empirically.

연구 동기 및 목표

잠재적으로 나쁜 로컬 미니마가 존재함에도 불구하고 SGD가 비볼록 MNN 손실을 어떻게 학습에 성공시키는지 동기를 부여한다.
완만한 과매개화 하에서 데이터에 의존하지 않는 훈련 오차 보증을 제공한다.
하나의 숨겨진 층을 가진 네트워크에서 differentiable 로컬 미니마에서의 0 훈련 오차를 보이고 이를 더 깊은 아키텍처로 확장한다.

제안 방법

스무딩 분석을 가능하게 하기 위해 piecewise linear 활성화와 드롭아웃 유사 노이즈를 갖는 MNN을 모델링한다.
differentiable 로컬 미니마에서의 그래디언트 조건을 도출하고, 차원이 0 훈련 오차를 제어하는 랭크를 갖는 gradient 매트릭스 G를 형식화한다.
마지막 숨겨진 층의 매개변수 수가 충분하면(N ≤ d_{L-2}d_{L-1}) differentiable 로컬 미니마가 데이터와 드롭아웃 realizations에 대해 확률 1로 0 훈련오차를 산출함을 증명한다.
L=2(하나의 숨겨진 층)에 대해 N ≤ d0 d1일 때 rank(G1)=N 이 거의 everywhere에서 성립함을 보인다.
L≥3에 대해 마지막 두 층을 섭동하고 앞의 층들을 고정시켰을 때 N ≤ d_{L-2}d_{L-1} 하에서 훈련오차가 0인 전역 최소값을 얻음을 보인다.

실험 결과

연구 질문

RQ1완만한 과매개화 하에서 piecewise linear 활성화를 갖는 MNN의 differentiable 로컬 미니마에서 훈련 오류가 0으로 보장될 수 있는가?
RQ2네트워크 깊이가 매끄러운 분석 프레임워크에서 0-훈련 오류 differentiable 로컬 미니마의 존재에 어떻게 영향을 미치는가?
RQ3드롭아웃 유사 노이즈와 데이터 섭동이 모든 differentiable 로컬 미니마를 훈련 오류 측면에서 전역 최적점으로 만들 수 있는가?
RQ4그래디언트 매트릭스의 랭크가 로컬 미니마에서 0 훈련 오차를 보장하는 데 어떤 역할을 하는가?

주요 결과

단일 숨겨진 층의 경우, N ≤ d0 d1 이면 모든 differentiable 로컬 미니마가 거의 everywhere에서 0 훈련 오차를 가진다.
다수의 숨겨진 층으로 확장했을 때, N ≤ dL-2 dL-1 이면 마지막 두 층을 섭동하고 앞의 층을 고정시킨 상태에서 전역 최소값이 거의 everywhere에서 0 훈련 오차를 가진다.
데이터의 Lebesgue 측 및 드롭아웃 realizations에 대해 결과가 성립하므로 보장이 데이터에 의존하지 않는다.
드롭아웃 유사 노이즈는 gradient 매트릭스 G_{L-1}의 열 랭크를 충실히 채우도록 하여, 약간의 과매개화 하에서 0 훈련 오차로 이어진다.
differentiable 로컬 미니마에서의 해essian은 양의 준정부이며, 무작위 섭동 하에서 0 오차 조건은 병적인 것이라기보다는 일반적인 것이 된다.
합성 데이터와 MNIST 유래 데이터셋에 대한 수치 실험에서 과매개화 상황에서 훈련 오차가 거의 0에 수렴하는 것을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.