Skip to main content
QUICK REVIEW

[논문 리뷰] Recovery Guarantees for One-hidden-layer Neural Networks

Kai Zhong, Zhao Song|arXiv (Cornell University)|2017. 06. 10.
Neural Networks and Applications참고 문헌 19인용 수 129
한 줄 요약

본 논문은 ground truth 근처의 해시안 분석과 텐서 기반 초기화를 이용하여 단일 은닉층 신경망의 매개변수 회복 및 전역 수렴 보장을 증명하며, 완만한 가정하에 차원에 비례하는 샘플 및 계산 복잡도를 달성한다.

ABSTRACT

In this paper, we consider regression problems with one-hidden-layer neural networks (1NNs). We distill some properties of activation functions that lead to $\mathit{local~strong~convexity}$ in the neighborhood of the ground-truth parameters for the 1NN squared-loss objective. Most popular nonlinear activation functions satisfy the distilled properties, including rectified linear units (ReLUs), leaky ReLUs, squared ReLUs and sigmoids. For activation functions that are also smooth, we show $\mathit{local~linear~convergence}$ guarantees of gradient descent under a resampling rule. For homogeneous activations, we show tensor methods are able to initialize the parameters to fall into the local strong convexity region. As a result, tensor initialization followed by gradient descent is guaranteed to recover the ground truth with sample complexity $ d \cdot \log(1/ε) \cdot \mathrm{poly}(k,λ)$ and computational complexity $n\cdot d \cdot \mathrm{poly}(k,λ) $ for smooth homogeneous activations with high probability, where $d$ is the dimension of the input, $k$ ($k\leq d$) is the number of hidden nodes, $λ$ is a conditioning property of the ground-truth parameter matrix between the input layer and the hidden layer, $ε$ is the targeted precision and $n$ is the number of samples. To the best of our knowledge, this is the first work that provides recovery guarantees for 1NNs with both sample complexity and computational complexity $\mathit{linear}$ in the input dimension and $\mathit{logarithmic}$ in the precision.

연구 동기 및 목표

  • 가우시안 입력에서의 1NN(단일 은닉층 신경망)를 이용한 회귀 문제를 이해하도록 동기를 부여한다.
  • 활성화 함수의 조건을 식별하여 참값 매개변수 근처에서 제곱 손실의 지역 강볼록성을 보장한다.
  • 로컬 강볼록성 영역의 수렴 영역으로 매개변수를 배치하기 위한 텐서 기반 초기화를 개발한다.
  • 입력 차원에 선형이고 정밀도에 대해 로그 스케일인 샘플 복잡도를 갖는 전역 수렴 학습 절차를 확립한다.

제안 방법

  • 활성화 특성(특성 3.1–3.3)이 W* 근처에서 해시안의 양의 정의성을 보장하도록 characterize한다.
  • 이 활성화 특성 하에서 경험적 해시안의 지역 양의 정의성 및 경사하강법의 지역 선형 수렴을 보인다.
  • 강볼록성 영역에 들어가도록 W와 v를 초기화하기 위한 텐서 방법을 도입한다(Algorithm 1).
  • 2계(moment) 추정을 먼저 수행하여 부분공간 V를 회복한 뒤 차원을 축소한 텐서 분해(P3(V,V,V))를 수행함으로써 텐서 기반 초기화를 차원의 세제곱 의존성에서 선형 의존성으로 감소시킨다.
  • 텐서 초기화와 반복적 경사하강법을 결합한 전역 수렴 알고리즘(Algorithm 2)을 제공하며 수렴 보장(Theorem 6.1).

실험 결과

연구 질문

  • RQ11NN의 제곱 손실이 참값 매개변수 근처에서 지역 강볼록성을 가지도록 하는 활성화 함수 조건은 무엇인가?
  • RQ2텐서 기반 초기화가 매개변수를 끌어당김( basin of attraction ) 영역으로 배치하여 경사 기반 방법의 수렴을 보장할 수 있는가?
  • RQ3가우시안 입력하에서 1NN의 참값 매개변수를 회복하기 위한 샘플 및 계산 복잡도는 어느 정도인가?
  • RQ4제안된 방법이 매끄러운 동형 활성화에까지 확장되어 전역 수렴 보장을 제공하는가?

주요 결과

  • 활성화 특성은 충분한 샘플로 참값 주변에서 해시안의 양의 정의성을 이끈다.
  • 매끄러운 동형 활성화에 대해 재샘플링이 있는 경사하강법은 참값 매개변수로의 선형 수렴을 달성한다.
  • 텐서 초기화는 입력 차원에 비례하는 샘플 복잡도와 시간 복잡도로 가중치와 출력 가중치를 복구할 수 있다(다항 차수까지 허용).
  • 텐서 초기화와 경사하강을 결합한 전역 수렴 절차는 높은 확률로 참값 매개변수를 회복하며, 샘플 복잡도  ~ linear in d and log(1/epsilon)에 비례한다.
  • 완만한 가정하에 d에 선형이고 epsilon에 로그인 샘플 복잡도와 계산 복잡도를 갖는 1NN의 회복 보장을 제공한다.]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.