QUICK REVIEW

[논문 리뷰] Polynomial Convergence of Gradient Descent for Training One-Hidden-Layer Neural Networks.

Santosh Vempala, John Wilmes|arXiv (Cornell University)|2018. 05. 07.

Stochastic Gradient Optimization Techniques참고 문헌 27인용 수 21

한 줄 요약

이 논문은 $n$개의 입력에 대해 유계 목표 함수의 최고 차수 $k$ 이내의 다항식 근사값으로 경사하강법이 수렴함을 입증한다. 이는 $n^{O(k)}$개의 매개수와 반복 횟수를 가진 단일 은닉층 신경망을 사용할 때 성립한다. 핵심 결과는 ReLU 및 시그모이드와 같은 클래스의 랜덤 게이트가 $n^{O(k)} \cdot \text{poly}(1/\epsilon)$개의 랜덤 선택된 게이트를 사용해 임의의 함수를 최대 $\epsilon_0 + \epsilon$의 오차로 차수 $k$ 다항식으로 근사할 수 있음을 보여준다.

ABSTRACT

We analyze Gradient Descent applied to learning a bounded target function on $n$ real-valued inputs by training a neural network with a single hidden layer of nonlinear gates. Our main finding is that GD starting from a randomly initialized network converges in mean squared loss to the minimum error (in 2-norm) of the best approximation of the target function using a polynomial of degree at most $k$. Moreover, the size of the network and number of iterations needed are both bounded by $n^{O(k)}$. The core of our analysis is the following existence theorem, which is of independent interest: for any $\epsilon > 0$, any bounded function that has a degree-$k$ polynomial approximation with error $\epsilon_0$ (in 2-norm), can be approximated to within error $\epsilon_0 + \epsilon$ as a linear combination of $n^{O(k)} \mbox{poly}(1/\epsilon)$ randomly chosen gates from any class of gates whose corresponding activation function has nonzero coefficients in its harmonic expansion for degrees up to $k$. In particular, this applies to training networks of unbiased sigmoids and ReLUs.

연구 동기 및 목표

단일 은닉층 신경망에서 유계 목표 함수에 대한 경사하강법 수렴성을 분석한다.
GD가 차수 $k$ 다항식에 의한 2노름 기준 최적 근사값으로 수렴함을 입증한다.
정확한 근사에 대해 네트워크 크기와 반복 횟수의 척도가 $n^{O(k)}$로 증가함을 보여준다.
ReLU 및 시그모이드와 같은 클래스의 랜덤 비선형 게이트로 함수를 근사할 수 있는 일반 존재 정리를 증명한다.
이러한 게이트가 최고 차수 $k$ 다항식 근사값으로부터 $\epsilon_0 + \epsilon$ 이내의 오차를 달성할 수 있음을 보여준다.

제안 방법

새로운 존재 정리에 기반한다: 차수 $k$ 다항식 근사 오차 $\epsilon_0$를 가진 유계 함수는 $n^{O(k)} \cdot \text{poly}(1/\epsilon)$개의 랜덤 선택된 게이트로 $\epsilon_0 + \epsilon$ 이내의 오차로 근사할 수 있다.
조화 분석을 사용하여, 푸리에 전개에서 차수 $k$까지의 비영인 계수를 가진 활성화 함수는 이러한 근사를 지원함을 보여준다.
측도 집중 및 랜덤 행렬 이론을 적용하여 근사에 필요한 랜덤 게이트의 수를 제한한다.
존재 정리에 기반한 안정성 및 근사 논증을 통해 경사하강법의 수렴성을 확립한다.
네트워크는 랜덤으로 초기화되며, GD가 차수 $k$ 다항식 근사값으로 달성 가능한 최소 오차로 수렴함을 보여준다.
게이트의 집합이 차수 $k$ 다항식의 공간에 충분히 조밀하게 펼쳐져 있음을 활용하여 효율적 학습이 가능함을 증명한다.

실험 결과

연구 질문

RQ1경사하강법이 단일 은닉층 신경망에서 유계 목표 함수의 최고 차수 $k$ 다항식 근사값으로 수렴할 수 있는가?
RQ2그러한 수렴을 위해 필요한 네트워크 크기와 반복 횟수는 얼마인가?
RQ3ReLU 및 시그모이드와 같은 클래스의 랜덤 비선형 게이트가 임의의 함수를 차수 $k$ 다항식으로 $\epsilon_0 + \epsilon$ 이내의 오차로 근사할 수 있는가?
RQ4그러한 근사 정확도를 달성하기 위해 필요한 랜덤 게이트의 수는 얼마인가?
RQ5수렴 여부는 활성화 함수의 조화 전개 성질에 의존하는가?

주요 결과

경사하강법은 목표 함수의 차수 $k$ 다항식 근사값으로 달성 가능한 최소 2노름 오차로 수렴한다.
필요한 매개수와 반복 횟수는 모두 $n^{O(k)}$로 제한되며, 이는 목표 함수의 복잡성보다는 그 차수 $k$ 근사 오차에만 의존한다.
달성된 근사 오차는 $\epsilon_0 + \epsilon$ 이하이며, $\epsilon_0$는 최고 차수 $k$ 다항식 근사값의 2노름 오차이다.
이 결과는 활성화 함수가 차수 $k$까지의 비영인 조화 계수를 가진 모든 비선형 게이트 클래스에 대해 성립하며, ReLU 및 시그모이드 네트워크를 포함한다.
최대 $\epsilon$ 이내의 근사 정확도를 달성하기 위해 필요한 랜덤 게이트의 수는 $n^{O(k)} \cdot \text{poly}(1/\epsilon)$이며, 고정된 $k$에 대해 $1/\epsilon$에 대해 다항식이다.
분석은 일반 존재 결과를 확립한다: 이러한 클래스의 랜덤 게이트는 오차 $\epsilon$ 이내에서 차수 $k$ 다항식의 공간에 조밀하게 펼쳐진 공간을 형성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.