[논문 리뷰] Small nonlinearities in activation functions create bad local minima in neural networks
이 논문은 한 층의 은닉층을 가진 신경망의 손실 곡면에서 조그만 비선형성(예: ReLU, 시그모이드, 탄제이)조차도 임의의 국소 최소값을 생성할 수 있음을 보여준다. 비선형적으로 분리되지 않은 데이터라는 최소한의 가정 하에, 저자들은 무한히 많은 악성 국소 최소값의 존재를 구성적으로 증명하여, 비선형 네트워크에서 국소 최소값이 항상 전역 최적임을 전제로 하는 기존의 통념에 도전한다.
We investigate the loss surface of neural networks. We prove that even for one-hidden-layer networks with "slightest" nonlinearity, the empirical risks have spurious local minima in most cases. Our results thus indicate that in general "no spurious local minima" is a property limited to deep linear networks, and insights obtained from linear networks may not be robust. Specifically, for ReLU(-like) networks we constructively prove that for almost all practical datasets there exist infinitely many local minima. We also present a counterexample for more general activations (sigmoid, tanh, arctan, ReLU, etc.), for which there exists a bad local minimum. Our results make the least restrictive assumptions relative to existing results on spurious local optima in neural networks. We complete our discussion by presenting a comprehensive characterization of global optimality for deep linear networks, which unifies other results on this topic.
연구 동기 및 목표
- 비선형 신경망에서 악성 국소 최소값이 존재하는지 조사하여, 국소 최소값이 항상 전역 최적임이라는 가정에 도전한다.
- 이전 연구가 가우시안 데이터나 실현 가능성 등의 제한적인 가정에 의존한 점을 해결한다.
- 실제 환경에서조차도 활성화 함수의 약간의 비선형성조차도 악성 국소 최소값을 초래할 수 있음을 보여준다.
- 딥 라인어 네트워크에서의 전역 최적성의 포괄적 특성화를 제공하여 비선형 케이스와 대비한다.
- 엄밀한 이론적 프레임워크를 통해 기존의 라인어 네트워크에서의 전역 최적성 결과를 통합하고 확장한다.
제안 방법
- 비선형적으로 분리되지 않은 데이터라는 최소한의 가정 하에, 한 층의 은닉층을 가진 ReLU 네트워크에서 악성 국소 최소값을 구성적으로 증명한다.
- 행렬 분해와 질량 조건을 활용하여 전체 네트워크의 전역 최적성과 구성된 가중치 행렬 R에 대한 축소된 경험 위험 함수 ℓ₀(R) 간의 관계를 설정한다.
- 특이값 분해(SVD)와 행렬 편향 이론을 사용하여, 전체 네트워크의 임의의 국소 최소값이 ℓ₀(R)의 국소 최소값과 대응됨을 보인다. 이는 전체 행/열 질량 조건이 만족될 경우에 한해 성립한다.
- 만약 전체 네트워크의 점이 국소 최소값이면서 중간 가중치 행렬이 전량 질량을 가진다면, 구성된 가중치 행렬 R은 ℓ₀(R)의 국소 최소값이어야 한다는 것을 증명한다.
- 행렬 질량과 노름 제약 조건을 사용하여 전체 네트워크의 전역 최소값과 ℓ₀(R)의 전역 최소값 간의 동치성을 확립한다.
- 이 결과들을 적용하여 딥 라인어 네트워크에서 전역 최소값이 ℓ₀(R)의 최소화와 동치임을 보여주며, 기존 문헌의 결과들을 통합한다.
실험 결과
연구 질문
- RQ1ReLU나 시그모이드와 같은 활성화 함수의 조그만 비선형성이 신경망에서 악성 국소 최소값을 유도하는가?
- RQ2특히 가우시안 데이터나 실현 가능성 조건을 요구하지 않는 한에서, 악성 국소 최소값을 구성할 수 있는가?
- RQ3비선형 네트워크에서는 '국소 최소값이 전역 최소값이다'는 성질이 성립하는가, 아니면 이는 선형 네트워크에 국한되는가?
- RQ4전체 네트워크의 국소 최소값과 구성된 가중치 행렬의 축소된 경험 위험 ℓ₀(R) 간의 관계는 무엇인가?
- RQ5딥 라인어 네트워크의 전역 최적성은 ℓ₀(R)의 최소화와 어떻게 관련되어 있으며, 이는 기존 결과들을 통합할 수 있는가?
주요 결과
- 한 층의 은닉층을 가진 ReLU 네트워크에서는 거의 모든 실용적인 비선형적으로 분리되지 않은 데이터셋에서 악성 국소 최소값이 존재한다.
- 저자들은 비선형적으로 분리되지 않은 데이터라는 가장 약한 알려진 가정 하에, ReLU 네트워크에서 무한히 많은 악성 국소 최소값의 존재를 구성적으로 증명한다.
- 일반적인 활성화 함수(예: 시그모이드, 탄제이, 아크탄제이, ReLU)에 대해 반례를 제시하여, 매우 낮은 비선형성조차도 악성 국소 최소값이 존재할 수 있음을 보여준다.
- 가우시안 입력 데이터나 실현 가능성 조건을 가정하지 않아도 결과가 성립하므로, 이는 이전 연구보다 더 일반적인 결과이다.
- 논문은 '국소 최소값이 전역 최소값이다'는 성질이 비선형 네트워크로는 확장되지 않으며, 주로 딥 라인어 네트워크에 국한됨을 규명한다.
- 딥 라인어 네트워크에서의 전역 최적성에 대한 포괄적 특성화를 제공하며, 기존 결과들을 통합하여 전체 네트워크의 전역 최소값과 ℓ₀(R)의 최소화 간의 동치성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.