Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Non-overlapping Convolutional Neural Networks with Multiple Kernels

Kai Zhong, Zhao Song|arXiv (Cornell University)|2017. 11. 08.
Tensor decomposition and applications참고 문헌 4인용 수 40
한 줄 요약

이 논문은 다중 커널을 가진 비중첩 컨볼루션 신경망(CNNs)에 대해 처음으로 다항 수준의 샘플 및 계산 복잡도 복원 보장을 수립한다. 가우시안 입력 하에서 전역 최적점 근처의 제곱 손실의 국소 강凸성(local strong convexity)을 증명하고, 텐서 초기화가 ReLU 및 시그모이드와 같은 부드러운 활성화 함수에서 입력 차원에 대해 선형적이고 정밀도에 대해 로그적 수준으로 수렴하는 경사하강법의 수렴을 가능하게 한다.

ABSTRACT

In this paper, we consider parameter recovery for non-overlapping convolutional neural networks (CNNs) with multiple kernels. We show that when the inputs follow Gaussian distribution and the sample size is sufficiently large, the squared loss of such CNNs is $\mathit{~locally~strongly~convex}$ in a basin of attraction near the global optima for most popular activation functions, like ReLU, Leaky ReLU, Squared ReLU, Sigmoid and Tanh. The required sample complexity is proportional to the dimension of the input and polynomial in the number of kernels and a condition number of the parameters. We also show that tensor methods are able to initialize the parameters to the local strong convex region. Hence, for most smooth activations, gradient descent following tensor initialization is guaranteed to converge to the global optimal with time that is linear in input dimension, logarithmic in precision and polynomial in other factors. To the best of our knowledge, this is the first work that provides recovery guarantees for CNNs with multiple kernels under polynomial sample and computational complexities.

연구 동기 및 목표

  • 단일 커널 또는 완전 연결 네트워크보다 덜 이해된 다중 커널을 가진 비중첩 CNNs에 대한 이론적 복원 보장을 제공하는 것.
  • 가우시안 입력 분포와 일반적인 활성화 함수 하에서 다중 커널 CNNs의 최적화 지형을 분석하는 것.
  • 제곱 손실의 헤시안이 전역 최적점 근처에서 국소적으로 강凸임을 입증하여 수렴 보장을 가능하게 하는 것.
  • 텐서 방법이 국소 강凸 영역 내에서 매개변수를 초기화할 수 있음을 보여주는 것.
  • 부드러운 활성화 함수에 대해 다항 수준의 샘플 및 계산 복잡도를 갖는 경사하강법의 전역 수렴을 증명하는 것.

제안 방법

  • ReLU, Leaky ReLU, 시그모이드와 같은 활성화 함수에 대해 약한 조건 하에서 진짜 값에서 인구 헤시안(population Hessian)이 양의 정부호임을 증명한다.
  • 행렬 베르누이 불등식을 사용하여, 충분한 샘플이 확보되면 진짜 값 근처에서 경험적 헤시안(empirical Hessian)이 높은 확률로 양의 정부호임을 보여준다.
  • 텐서 분해 방법을 활용하여 국소 강凸성이 성립하는 영역 내에서 매개변수를 초기화한다.
  • 강凸 영역에 초기화된 경우, 경사하강법이 전역 최적점으로 국소적으로 선형 수렴함을 입증한다.
  • 두 번째 순서의 미분 가능성과 부드럽지 않은 활성화 함수에 대한 오차 한계를 활용하여, 진짜 값 근처의 헤시안 스펙트럼 성질을 분석한다.
  • 입력 차원, 커널 수, 매개변수의 조건수에 대해 다항 수준의 샘플 복잡도 한계를 유도한다.

실험 결과

연구 질문

  • RQ1다중 커널 비중첩 CNNs에서 제곱 손실의 헤시안이 전역 최적점 근처에서 국소적으로 강凸이 되는 조건은 무엇인가?
  • RQ2텐서 기반 초기화가 국소 강凸성이 성립하는 영역에 경사하강법을 안정적으로 배치할 수 있는가?
  • RQ3경험적 헤시안이 진짜 값 근처에서 높은 확률로 양의 정부호가 되도록 하기 위해 필요한 샘플 복잡도는 얼마인가?
  • RQ4이 설정에서 경사하강법의 수렴 속도는 입력 차원, 정밀도 및 네트워크 매개변수에 어떻게 의존하는가?
  • RQ5ReLU, 시그모이드 등 일반적인 활성화 함수 중 이론적 보장이 성립하는 함수는 무엇인가?

주요 결과

  • 가우시안 입력 하에서, 대부분의 일반적인 활성화 함수(ReLU, Leaky ReLU, 시그모이드, Tanh 포함)에 대해 제곱 손실의 인구 헤시안은 진짜 값에서 양의 정부호이다.
  • 입력 차원, 커널 수, 조건수에 대해 다항 수준의 샘플 크기를 확보하면, 진짜 값 근처의 경험적 헤시안이 높은 확률로 양의 정부호를 유지한다.
  • 텐서 방법으로 초기화된 경우, 경사하강법은 입력 차원에 대해 선형 수렴하고 정밀도에 대해 로그 수렴하여 전역 최적점에 수렴한다.
  • 필요한 샘플 복잡도는 입력 차원, 커널 수, 매개변수의 조건수에 대해 다항 수준이다.
  • 이론적 프레임워크는 다항 수준의 샘플 및 계산 복잡도를 갖는 다중 커널 비중첩 CNNs에 대해 처음으로 전역 수렴 및 복원 보장을 제공한다.
  • 부드러운 활성화 함수에 대해 약한 정규성 조건을 만족하는 경우 이론적 보장이 성립하며, 추가적인 기술적 분석을 통해 비부드러운 활성화 함수로도 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.