QUICK REVIEW

[논문 리뷰] Theoretical properties of the global optimizer of two layer neural network

Digvijay Boob, Guanghui Lan|arXiv (Cornell University)|2017. 10. 30.

Neural Networks and Applications참고 문헌 13인용 수 27

한 줄 요약

이 논문은 미분 가능하고 조각별 선형이 아닌 활성화 함수를 갖는 두 층 신경망에 대해, 은닉층이 비특이적일 경우 일阶 최적성은 전역 최적성을 함의함을 확립한다. 목적 함수가 리프시츠 스무쓰함을 갖음을 증명하여, 기울기 기반 방법의 O(1/k) 수렴을 가능하게 하고, 확률적 알고리즘들이 유한 반복 기간 동안 비특이성을 유지함을 보여준다.

ABSTRACT

In this paper, we study the problem of optimizing a two-layer artificial neural network that best fits a training dataset. We look at this problem in the setting where the number of parameters is greater than the number of sampled points. We show that for a wide class of differentiable activation functions (this class involves "almost" all functions which are not piecewise linear), we have that first-order optimal solutions satisfy global optimality provided the hidden layer is non-singular. Our results are easily extended to hidden layers given by a flat matrix from that of a square matrix. Results are applicable even if network has more than one hidden layer provided all hidden layers satisfy non-singularity, all activations are from the given "good" class of differentiable functions and optimization is only with respect to the last hidden layer. We also study the smoothness properties of the objective function and show that it is actually Lipschitz smooth, i.e., its gradients do not change sharply. We use smoothness properties to guarantee asymptotic convergence of O(1/number of iterations) to a first-order optimal solution. We also show that our algorithm will maintain non-singularity of hidden layer for any finite number of iterations.

연구 동기 및 목표

두 층 신경망에서 일阶 최적성이 전역 최적성으로 이르는 이론적 조건을 확립하는 것.
특히 리프시츠 스무쓰함을 포함한 신경망 목적 함수의 스무쓰함 성질을 분석하는 것.
유한 반복 기간 동안 확률적 최적화 방법이 은닉층의 비특이성을 유지할 수 있는지 보여주는 것.
비볼록이고 스무쓰한 목적 함수에 대해 기울기 기반 알고리즘의 수렴 속도를 유도하는 것.
비특이성과 조각별 선형이 아닌 활성화 함수 제약 조건 하에서 깊은 네트워크로 결과를 확장하는 것.

제안 방법

미분 가능하고 조각별 선형이 아닌 활성화 함수에 대해, 은닉층이 비특이적일 경우 일阶 최적해는 전역 최적해임을 증명한다.
목적 함수가 리프시츠 스무쓰함을 갖는다는 것을 보여주며, 이는 작은 매개변수 변화에 따라 기울기가 서서히 변화함을 의미한다.
스무쓰함을 이용해, ε-근사 일阶 최적해를 찾는 데 있어 그라디언트 디센트의 O(1/k) 수렴 속도를 도출한다.
유한 반복 기간 동안 은닉층의 비특이성을 유지하기 위해 분산이 유한한 확률적 그라디언트 방법을 적용한다.
최종 은닉층만 최적화하면서도 비특이성과 비조각별 선형 활성화를 보장함으로써 깊은 네트워크로 결과를 확장한다.
변분 분석과 행렬 섭동 이론을 활용해 기울기 역학과 수렴 행동을 분석한다.

실험 결과

연구 질문

RQ1비선형 활성화 함수를 갖는 두 층 신경망에서 일阶 최적성이 전역 최적성으로 이르는 조건은 무엇인가?
RQ2두 층 신경망의 목적 함수는 리프시츠 스무쓰한가? 이는 최적화에 어떤 영향을 미치는가?
RQ3확률적 최적화 방법은 유한 반복 기간 동안 은닉층의 비특이성을 유지할 수 있는가?
RQ4활성화 함수의 선택은 일阶 해의 전역 최적성에 어떤 영향을 미치는가?
RQ5비볼록이고 스무쓰한 신경망 목적 함수에 대해 기울기 기반 방법의 수렴 속도는 어떤가?

주요 결과

미분 가능하고 조각별 선형이 아닌 활성화 함수의 넓은 범주에 대해, 은닉층이 비특이적일 경우 일阶 최적해는 전역 최적해이다.
두 층 신경망의 목적 함수는 리프시츠 스무쓰함을 갖으며, 이는 매개변수 갱신에 따라 기울기가 급격히 변화하지 않음을 보장한다.
확률적 그라디언트 하강법은 모든 유한 반복 기간 동안 은닉층의 비특이성을 유지하며, 전역 수렴 보장을 가능하게 한다.
리프시츠 스무쓰함 하에서 ε-근사 일阶 최적해를 찾는 데 있어 O(1/k) 수렴 속도를 확보한다.
기울기 노름의 기대값에 대한 수렴 경계는 O(1/N_o)로 스케일되며, 초기 목적 함수 값, 반경 R, 분산 매개변수에 명시적인 의존성을 갖는다.
모든 은닉층이 비특이적이고 모든 활성화 함수가 '좋은' 함수 클래스에 속할 경우 결과는 깊은 네트워크로 확장된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.