QUICK REVIEW

[논문 리뷰] How degenerate is the parametrization of neural networks with the ReLU activation function

Dennis Elbrächter, Julius Berner|arXiv (Cornell University)|2019. 05. 23.

Neural Networks and Applications인용 수 11

한 줄 요약

이 논문은 렐루 신경망의 매개변수화에서의 열악성(degeneracy)을 분석함으로써, 네트워크 매개변수와 그가 실현하는 함수 간의 관계를 조사한다. 얕은 네트워크에 대해 소볼레프 노름에서 실현 사상의 역안정성(inverse stability)을 확립하여, 제한된 매개변수 공간 내 국소 최소값이 근사 최적의 실현을 이끌어내며, 기능 공간에서의 효과적인 최적화를 가능하게 한다.

ABSTRACT

Neural network training is usually accomplished by solving a non-convex optimization problem using stochastic gradient descent. Although one optimizes over the networks parameters, the main loss function generally only depends on the realization of the neural network, i.e. the function it computes. Studying the optimization problem over the space of realizations opens up new ways to understand neural network training. In particular, usual loss functions like mean squared error and categorical cross entropy are convex on spaces of neural network realizations, which themselves are non-convex. Approximation capabilities of neural networks can be used to deal with the latter non-convexity, which allows us to establish that for sufficiently large networks local minima of a regularized optimization problem on the realization space are almost optimal. Note, however, that each realization has many different, possibly degenerate, parametrizations. In particular, a local minimum in the parametrization space needs not correspond to a local minimum in the realization space. To establish such a connection, inverse stability of the realization map is required, meaning that proximity of realizations must imply proximity of corresponding parametrizations. We present pathologies which prevent inverse stability in general, and, for shallow networks, proceed to establish a restricted space of parametrizations on which we have inverse stability w.r.t. to a Sobolev norm. Furthermore, we show that by optimizing over such restricted sets, it is still possible to learn any function which can be learned by optimization over unrestricted sets.

연구 동기 및 목표

매개변수에서 실현된 함수로의 사상 분석을 통해 렐루 신경망의 비볼록 최적화 지형을 이해하기 위해.
매개변수 공간 내 국소 최소값이 항상 기능 공간에서 좋은 해가 되지 않는 이유를 매개변수 열악성으로 인해 규명하기 위해.
제한된 매개변수 공간에서의 최적화가 근사 최적의 실현을 이끌어내는 조건을 설정하기 위해.
일반적인 신경망의 표현 능력을 유지하면서도 제한된 매개변수 공간에서의 최적화가 여전히 동일한 표현 능력을 갖는지 보여주기 위해.

제안 방법

실현 사상(네트워크 매개변수에서 계산된 함수로의 사상)을 분석하고, 그 역안정성에 초점을 맞춘다.
실현 간 유사도와 해당 매개변수 간 유사도를 측정하기 위해 소볼레프 노름을 도입한다.
매개변수 공간을 제한하여 얕은 네트워크에서 병적인 열악성을 방지하고, 역안정성을 보장한다.
근사 이론을 사용하여 제한된 공간이 제한이 없는 최적화로 학습 가능한 모든 함수를 여전히 지원함을 보여준다.
제한된 매개변수 공간 내 정규화된 국소 최소값이 실현 공간에서 근사 최적의 해에 해당함을 증명한다.
손실 함수가 실현 공간에서 볼록임을 확립하여, 제한된 매개변수화 하에서 수렴 보장을 가능하게 한다.

실험 결과

연구 질문

RQ1왜 렐루 네트워크의 매개변수 공간 내 국소 최소값이 항상 기능 공간에서 좋은 해가 되지 않는가?
RQ2얕은 렐루 네트워크에 대해 실현 사상의 역안정성이 어떤 조건에서 확립될 수 있는가?
RQ3제한된 매개변수 공간에서의 최적화가 여전히 제한이 없는 최적화와 동일한 표현 능력을 갖출 수 있는가?
RQ4노름의 선택(예: 소볼레프 노름)이 실현 사상의 안정성에 어떤 영향을 미치는가?
RQ5매개변수 공간에서의 정규화와 기능 공간에서의 최적성 간의 관계는 무엇인가?

주요 결과

매개변수화에서 병적인 열악성로 인해 일반적으로 실현 사상의 역안정성을 보장할 수 없다.
얕은 렐루 네트워크에서는 소볼레프 노름 하에 매개변수를 제한할 경우 역안정성이 성립한다.
제한된 매개변수 공간 내 정규화된 최적화 문제의 국소 최소값은 실현 공간에서 거의 최적의 해에 해당한다.
제한된 매개변수 공간은 표준 렐루 네트워크의 전체 근사 능력을 유지한다.
제한된 공간에서의 최적화는 매개변수 자유도가 감소했음에도 불구하고, 제한이 없는 최적화와 동일한 수준의 해를 도출한다.
사용된 손실 함수들(예: 평균 제곱 오차, 교차 엔트로피)은 실현 공간에서 볼록하므로 강력한 수렴 보장을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.