Skip to main content
QUICK REVIEW

[논문 리뷰] Local minima in training of neural networks

Grzegorz Świrszcz, Wojciech Marian Czarnecki|arXiv (Cornell University)|2016. 11. 19.
Stochastic Gradient Optimization Techniques참고 문헌 25인용 수 39
한 줄 요약

이 논문은 작은 데이터셋과 얕은 아키텍처를 가진 완전 연결 ReLU 네트워크의 손실 곡면에서도 최적화되지 않은 국소 최솟값이 존재할 수 있음을 보여준다. 기울기 하강법이 열악한 해로 수렴하는 구체적인 예를 제시함으로써, 데이터와 아키텍처에 강력한 가정이 없이도 나쁜 국소 최솟값이 존재하지 않는다는 것은 보장되지 않음을 입증한다.

ABSTRACT

There has been a lot of recent interest in trying to characterize the error surface of deep models. This stems from a long standing question. Given that deep networks are highly nonlinear systems optimized by local gradient methods, why do they not seem to be affected by bad local minima? It is widely believed that training of deep models using gradient methods works so well because the error surface either has no local minima, or if they exist they need to be close in value to the global minimum. It is known that such results hold under very strong assumptions which are not satisfied by real models. In this paper we present examples showing that for such theorem to be true additional assumptions on the data, initialization schemes and/or the model classes have to be made. We look at the particular case of finite size datasets. We demonstrate that in this scenario one can construct counter-examples (datasets or initialization schemes) when the network does become susceptible to bad local minima over the weight space.

연구 동기 및 목표

  • 완전 연결 ReLU 네트워크의 훈련 손실 곡면에서 최적화되지 않은 국소 최솟값이 존재할 수 있는지 조사하기.
  • 전역 최솟값이 아닌 열악한 국소 최솟값으로 수렴하는 최소한의 데이터셋과 네트워크 구성 구축하기.
  • 고차원 기하학의 성질 덕분에 나쁜 국소 최솟값이 희귀하거나 존재하지 않는다는 기존 가설에 도전하기.
  • 신경망 손실 표면의 유익한 구조에 대한 이론적 주장의 한계를 드러내는 구체적 반례 제공하기.
  • 기본 훈련 절차의 실패 케이스를 규명함으로써 더 나은 최적화 알고리즘 설계에 기여하기.

제안 방법

  • 저자들은 단일 ReLU 은닉층과 최종 선형 출력층을 가진 특정 네트워크 아키텍처를 정의하고, 평균 제곱 오차 손실을 사용한다.
  • 전체 평균과 다를 수 있는 레이블 분포를 가진 최소한의 입력 포인트를 포함한 데이터셋을 구성하여, 단순히 분리 가능한 것이 아닌 '합리적인' 데이터셋을 확보한다.
  • 유일한 포인트를 나머지 모든 포인트로부터 분리하는 초평면을 정의하고, 첫 번째 은닉층의 첫 세 뉴런이 이 유일한 포인트에서만 활성화되도록 가중치 행렬을 설계한다.
  • 네트워크는 모든 입력 포인트에서 은닉층 출력이 0이 되도록 구성되며, 오직 유일한 포인트에서만 선형 조합을 통해 정확한 레이블을 생성하도록 한다.
  • 구축된 점에서의 손실이 모든 입력에 대해 전역 평균을 예측하는 대안 구성보다 엄격히 높다는 것을 보여준다.
  • 증명은 평균 주변에서 제곱 오차 손실의 엄격한 볼록성에 기반하며, 이는 레이블 평균이 局부 평균과 다를 경우 구축된 점이 전역 최솟값일 수 없음을 보여준다.

실험 결과

연구 질문

  • RQ1소규모이고 현실적인 데이터셋에서 기울기 하강법으로 훈련하는 완전 연결 ReLU 네트워크에서 최적화되지 않은 국소 최솟값이 존재할 수 있는가?
  • RQ2데이터와 아키텍처의 어떤 조건에서 훈련 과정이 전역 최솟값에 도달하지 못하는가?
  • RQ3딥러닝에서 나쁜 국소 최솟값이 존재하지 않는다는 것은 보편적인 성질인가, 아니면 데이터와 모델 구조에 대한 특정 가정에 의존하는가?
  • RQ4고차원 최적화에서 손실 표면의 안정적인 구조에 대한 이론적 주장에 도전하기 위해 명시적인 반례를 구성할 수 있는가?
  • RQ5데이터와 네트워크 아키텍처의 어떤 구조적 특징이 훈련 과정에서 열악한 국소 최솟값의 발생을 유도하는가?

주요 결과

  • 논문은 단일 은닉층을 가진 완전 연결 ReLU 네트워크의 구체적 예를 제시하여, 전역 최솟값보다 높은 손실을 가진 국소 최솟값으로 수렴함을 보였다.
  • 구축된 국소 최솟값은 네트워크가 유일한 입력 포인트의 평균 레이블을 예측하는 경우에 발생하며, 전역 최솟값은 모든 입력에 대해 전체 레이블 평균을 예측하는 경우에 해당한다.
  • 유일한 포인트의 레이블 평균이 전체 레이블 평균과 다를 경우에 이 국소 최솟값의 존재가 증명되며, 이는 '합리적인' 데이터셋에서 항상 보장된다.
  • 제곱 오차 손실의 평균 주변 엄격한 볼록성 덕분에 국소 최솟값의 손실이 전역 최솟값보다 엄격히 높다.
  • 이 결과는 첫 번째 레이어에 단지 세 개의 뉴런만을 가진 소규모 네트워크에서도 성립하므로, 나쁜 국소 최솟값이 복잡한 아키텍처에 국한되지 않음을 보여준다.
  • 논문은 데이터 분포와 네트워크 구조에 강력한 가정이 없이도 나쁜 국소 최솟값이 존재하지 않는다는 것이 보장되지 않음을 보여주며, '나쁜 국소 최솟값이 없다'는 가설에 도전한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.