Skip to main content
QUICK REVIEW

[논문 리뷰] Spurious Valleys in Two-layer Neural Network Optimization Landscapes

Luca Venturi, Afonso S. Bandeira|arXiv (Cornell University)|2018. 02. 18.
Stochastic Gradient Optimization Techniques참고 문헌 48인용 수 50
한 줄 요약

이 논문은 한 은닉층 네트워크의 내재 차원을 정의하고, 유한한 내재 차원이 과매개화 하에서 허위 골짜기가 존재하지 않도록 보장하는 반면, 무한한 내재 차원은 허위 골짜기를 허용한다는 점을 보여주며, 허위 골짜기는 존재하더라도 위험이 낮은 영역에 위치하고 네트워크 폭이 커질수록 그 가능성이 감소한다.

ABSTRACT

Neural networks provide a rich class of high-dimensional, non-convex optimization problems. Despite their non-convexity, gradient-descent methods often successfully optimize these models. This has motivated a recent spur in research attempting to characterize properties of their loss surface that may explain such success. In this paper, we address this phenomenon by studying a key topological property of the loss: the presence or absence of spurious valleys, defined as connected components of sub-level sets that do not include a global minimum. Focusing on a class of two-layer neural networks defined by smooth (but generally non-linear) activation functions, we identify a notion of intrinsic dimension and show that it provides necessary and sufficient conditions for the absence of spurious valleys. More concretely, finite intrinsic dimension guarantees that for sufficiently overparametrised models no spurious valleys exist, independently of the data distribution. Conversely, infinite intrinsic dimension implies that spurious valleys do exist for certain data distributions, independently of model overparametrisation. Besides these positive and negative results, we show that, although spurious valleys may exist in general, they are confined to low risk levels and avoided with high probability on overparametrised models.

연구 동기 및 목표

  • 신경망의 비볼록 손실 지형에 대한 이해를 고무한다.
  • 한 은닉층 네트워크에서 허위 골짜기의 존재 여부를 특성화한다.
  • 아키텍처를 최적화 지형과 연결하는 내재 차원 개념을 소개한다.
  • 다양한 활성화 함수에 대해 과매개화가 허위 골짜기를 제거하는 조건을 제시한다.
  • 모델 위험(전역 위험)과 표본 위험 간의 관계를 지형 특성과 맥락에서 대조한다.

제안 방법

  • 허위 골짜기를 전역 최솟값을 포함하지 않는 서브 레벨 집합의 연결 성분으로 정의한다.
  • 네트워크의 함수 공간 복잡성을 정량화하기 위해 상한 내재 차원과 하한 내재 차원을 도입한다.
  • 유한 내재 차원이 충분히 넓은 네트워크에서 허위 골짜기가 없음을 보장한다.
  • 무한 내재 차원이 일부 데이터 분포에 대해 허위 골짜기의 존재를 시사한다는 것을 보인다.
  • 다항 활성화에 대한 특수화된 결과와 ERM 맥락을 코로렐리로 제시한다.
  • 선형 및 2차 활성화에 대한 개선점과 텐서 분해와의 관계를 논의한다.

실험 결과

연구 질문

  • RQ1한 은닉층 신경망에서 허위 골짜기가 언제 존재하거나 사라지는가?
  • RQ2네트워크의 내재 차원이 과매개화 하에서 최적화 지형에 어떤 영향을 미치는가?
  • RQ3활성화 유형에 따라 모집단 위험과 경험적 위험 최소화 간의 결과가 다른가?
  • RQ4특정 활성화 클래스(예: 다항, 선형, 2차)에 대해 과매개화가 밸리 없는 최적화를 보장하는가?

주요 결과

  • 허위 골짜기는 숨겨진 폭이 내재 차원 상한 dim*(σ,X)보다 큰 경우 p가 충분히 크면 발생하지 않는다.
  • 다항 활성화의 경우 충분한 과매개화 하에서 ERM 및 모집단 위험에서 허위 골짜기가 발생하지 않으며, 선형/2차 활성화에 대해서도 상수 차수로 결과가 타이트하다.
  • 비다항, 비음수 활성화의 경우 어떤 폭에서도 허위 골짜기가 존재할 수 있으며, 적대적 데이터 분포를 구성하면 가능하다.
  • 과매개화된 모델이라도 허위 골짜기가 존재할 수 있지만 그 측도는 폭이 커질수록 감소하며 저에너지 허위 골짜기는 높은 확률로 피한다.
  • 선형 네트워크의 경우 제곱 손실에서 깊이에 상관없이 허위 골짜기가 없고, m=1인 2차 활성화의 경우 p ≥ 2n+1이면 허위 골짜기를 피할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.