Skip to main content
QUICK REVIEW

[논문 리뷰] Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

Itay Safran, Ohad Shamir|arXiv (Cornell University)|2017. 12. 24.
Neural Networks and Applications참고 문헌 22인용 수 77
한 줄 요약

이 논문은 가우스 입력하에서 두층 ReLU 네트워크를 훈련할 때 위조적(local) 최소점이 존재함을 보이고, 네트워크 크기가 커질수록 과파라미터화가 이를 완화할 수 있음을 보인다.

ABSTRACT

We consider the optimization problem associated with training simple ReLU neural networks of the form $\mathbf{x}\mapsto \sum_{i=1}^{k}\max\{0,\mathbf{w}_i^ op \mathbf{x}\}$ with respect to the squared loss. We provide a computer-assisted proof that even if the input distribution is standard Gaussian, even if the dimension is arbitrarily large, and even if the target values are generated by such a network, with orthonormal parameter vectors, the problem can still have spurious local minima once $6\le k\le 20$. By a concentration of measure argument, this implies that in high input dimensions, \emph{nearly all} target networks of the relevant sizes lead to spurious local minima. Moreover, we conduct experiments which show that the probability of hitting such local minima is quite high, and increasing with the network size. On the positive side, mild over-parameterization appears to drastically reduce such local minima, indicating that an over-parameterization assumption is necessary to get a positive result in this setting.

연구 동기 및 목표

  • Population 손실 하에서 가우스 입력으로 훈련하는 두층 ReLU 네트워크에서 위조적 로컬 미니마의 존재 여부를 조사한다.
  • 네트워크 크기 (k)와 뉴런 수 (n)가 위조적 미니마의 존재와 가능성에 어떤 영향을 미치는지 정량화한다.
  • 비교과정에서 존재하는 비 글로벌 미니마를 인증하는 엄밀한 증명 전략을 제시하고 이를 완화시키는 조건을 탐구한다.
  • 스파스한 경사하강법의 위조적 미니마 탐색에서의 경험적 거동과 과파라미터화의 영향력을 탐구한다.

제안 방법

  • 직교 직관을 갖는 vj를 사용한 objective min_w1..wn E_x~N(0,I)[1/2(sum_i [wi^T x]_+ - sum_j [vj^T x]_+)^2] 분석.
  • 그레디언트, 해시안, Taylor 잔차 경계에 의한 위조적 로컬 미니마의 존재를 인증하는 컴퓨터 보조 증명 접근법을 사용.
  • F, 그라디언트와 해시안의 닫힌 형태 표현을 기대 ReLU 상호작용 f(w,v)=E[[w^T x]_+[v^T x]_+]를 이용해 도출.
  • 3차 미분 가능성 프레임워크와 Taylor 전개를 적용해 그라디언트가 ~0이고 해시안이 양의 정부일 때 로컬 미니마에 근접함을 보인다.
  • 과다 매개화(n>k)를 활용해 완화 효과를 평가하고 경험적 증거를 제시.
  • 보증 정밀도 산술(VPA)을 이용해 수치 경계와 부동소수점 오차를 배제하는 증명을 수행.

실험 결과

연구 질문

  • RQ1 가우스 입력하에서 k가 6에서 20까지 변할 때 두층 ReLU 네트워크의 모집단 손실에 대해 위조적 로컬 미니마가 존재하는가(직교화된 v_i와 함께)?
  • RQ2 과다 매개화(n>k)가 위조적 로컬 미니마의 존재 여부에 어떤 영향을 미치는가?
  • RQ3 임의로 초기화된 경사하강법이 k와 n이 달라질 때 위조적 로컬 미니마로 수렴할 확률은 어떤가?
  • RQ4 경사/해시안 및 Taylor 잔차 경계로 비글로벌 미니마의 존재를 인증하는 엄밀한 증명 프레임워크가 있는가?
  • RQ5 무작위 v_i의 고차원성과 거의 직교성은 실제 landscape에 어떤 영향을 미치는가?

주요 결과

kn% of runsAverage converging to local minimaAverage minimal eigenvalueAverage objective value
660.3%0.00470.0250.02508
775.5%0.0140.0230.02300
8812.6%0.0210.0210.02100
9921.8%0.0270.0200.02000
101034.6%0.0300.0220.02200
111145.5%0.0340.0220.02200
121258.5%0.0350.0210.02100
131373%0.0370.0220.02200
141473.6%0.0380.0230.02300
151580.3%0.0380.0240.02400
161685.1%0.0380.0270.02700
171789.7%0.0390.0270.02700
181890%0.0390.0290.02900
191993.4%0.0380.0310.03100
202094%0.0380.0330.03300
890.1%0.00590.0210.02100
10110.1%0.00570.0180.01800
11120.1%0.00560.0170.01700
12130.3%0.00540.0160.01600
13141.5%0.00150.0380.03800
14155.5%0.0020.0330.03300
151610.1%0.0040.0320.03200
161718%0.00550.0310.03100
171820.9%0.0070.0310.03100
181936.9%0.00640.0280.02800
192049.1%0.00770.0270.02700
  • 6 ≤ k ≤ 20이고 n = k(또는 n = k+1 또는 n = k+2인 거의 같은 쌍의 경우)에서 objective는 위조적 로컬 미니마를 가진다.
  • 경험적 결과는 위조적 로컬 미니마로의 수렴 확률이 네트워크 크기에 따라 증가하며, 특히 n ≈ k일 때 상당히 크다.
  • 과다 매개화(n ≥ k+2)는 실험 범위에서(최대 k,n ≤ 20) 관찰된 위조적 로컬 미니마를 크게 감소시키거나 제거한다.
  • 저자들은 경사/해시안 조건을 Taylor 전개와 결합해 로컬 비글로벌 미니마를 인증하는 형식적 증명 전략을 제시한다.
  • 보증 정밀도 산술을 사용한 수치 인증은 이러한 미니마의 존재와 양의 정부 해시안을 검증하고 부동소수점 오차의 함정을 피한다.
  • 대칭적이고 구조화된 로컬 미니마가 목표 뉴런과 가까운 가중치를 갖는 예들이 관찰된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.