Skip to main content
QUICK REVIEW

[논문 리뷰] The loss surface of deep and wide neural networks

Quynh C. Nguyen, Matthias Hein|arXiv (Cornell University)|2017. 04. 26.
Neural Networks and Applications인용 수 117
한 줄 요약

저자는 과도하게 명시된(매우 넓은) 신경망에서, 완만한 해석적 활성화 및 손실 가정 하에 거의 모든 로컬 미니마가 글로벌 미니마임을 보였으며, 피라미드형 구조를 가진 깊은 네트워크에 대한 기존 결과를 확장한다.

ABSTRACT

While the optimization problem behind deep neural networks is highly non-convex, it is frequently observed in practice that training deep networks seems possible without getting stuck in suboptimal points. It has been argued that this is the case as all local minima are close to being globally optimal. We show that this is (almost) true, in fact almost all local minima are globally optimal, for a fully connected network with squared loss and analytic activation function given that the number of hidden units of one layer of the network is larger than the number of training points and the network structure from this layer on is pyramidal.

연구 동기 및 목표

  • 딥러닝에서 비볼록 최적화에 대한 이해를 촉진하고, 실제로 학습이 왜 자주 성공하는지 설명한다.
  • 과도하게 명시된 상태에서 깊고 넓은 신경망의 손실 표면을 특성화한다.
  • 피라미드 구조를 가진 다층 아키텍처에 대해 얕은 네트워크의 이전 결과를 일반화한다.

제안 방법

  • L개의 층으로 구성된 피드포워드 네트워크와 해석적 활성화 함수를 형식화한다.
  • 그라디언트(델타 행렬)와 가중치/편향 그라디언트에 대한 역전파 관계를 도출한다.
  • 활성화 및 손실에 대한 가정(해석적, 단조로운, C^2 손실)을 도입하고, 매개변수의 실해석 함수인 레이어 출력에 관한 핵심 보조정리들을 증명한다.
  • 매개변수의 측도에서 [F_k, 1_N] = N인 랭크 조건이 성립한다(숨겨진 층이 매우 넓을 때, n_k ≥ N−1).
  • 실해석 함수 특성을 이용해 랭크 조건이 실패하는 집합이 측도 0임을 주장한다.
  • 명시된 조건하에서 해석적 함수정리를 적용하고 비특이성 논지를 사용해 임계점의 글로벌 최적성을 결론짓는다.

실험 결과

연구 질문

  • RQ1네트워크 폭과 아키텍처의 어떤 조건에서 심층 네트워크에서 로컬 미니마가 글로벌 미니마가 되는가?
  • RQ2해석적 활성화 및 손실 함수가 임계점의 구조와 전역 최적 해의 보급성에 어떤 영향을 미치는가?
  • RQ3얕은 네트워크에 대해 알려진 결과를 피라미드형 과도 명시 구조의 다층 네트워크에 확장할 수 있는가?
  • RQ4숨겨진 층의 활성화 랭크가 임계점의 글로벌 최적성 보장에 어떤 역할을 하는가?

주요 결과

  • 과도하게 명시된 네트워크에서, 큰 범주의 로컬 미니마가 글로벌 최적이다.
  • 숨겨진 층이 최소한 N−1개의 유닛(n_k ≥ N−1)을 가지면, 완화된 가정하에 모든 비특이적 임계점이 상위 층의 랭크가 full인 경우 글로벌 최적이다.
  • 학습 샘플이 선형 독립일 때, 가중치 행렬의 열 랭크가 full인 모든 임계점은 글로벌 최소이다.
  • 해석성으로 인해 문제가 되는 지점이 측도 0인 집합에서 발생하므로, 주어진 조건하에서 거의 모든 임계점이 글로벌 미니마가 된다.
  • 상위 층 가중치가 풀 랭크이고 피라미드 구조를 유지하는 한, 저급한 축약점이나 낮은 랭크의 새움점은 실제로는 가능성이 낮다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.