[논문 리뷰] Theory II: Landscape of the Empirical Risk in Deep Learning
이 논문은 과다 파rametrized된 딥 컨volution 네트워크(DCNNs)의 손실 곡면을 조사하며, 경험적 리스크 표면이 훈련 오차가 0인 다수의 열화된 전역 최소값으로 이루어져 있다고 제안한다. ReLU의 다항식 근사와 데자르트 정리 기반 이론적 분석을 통해 이러한 최소값이 매우 많다는 것을 입증한다. CIFAR-10에서의 다차원 척도법(MDS) 및 펌프팅 실험을 통한 실험적 시각화 결과, SGD는 작은 가중치 펌프팅 이후에도 평탄하고 안정된 전역 최소값으로 수렴함을 확인하였으며, 이는 손실 곡면이 일반적으로 생각하는 것보다 단순하다는 것을 시사한다 — 즉, 국소 최소값이 없고, 다차원적이고 비교적 규칙적인 골짜기의 집합으로 구성되어 있음을 의미한다.
Previous theoretical work on deep learning and neural network optimization tend to focus on avoiding saddle points and local minima. However, the practical observation is that, at least in the case of the most successful Deep Convolutional Neural Networks (DCNNs), practitioners can always increase the network size to fit the training data (an extreme example would be [1]). The most successful DCNNs such as VGG and ResNets are best used with a degree of "overparametrization". In this work, we characterize with a mix of theory and experiments, the landscape of the empirical risk of overparametrized DCNNs. We first prove in the regression framework the existence of a large number of degenerate global minimizers with zero empirical error (modulo inconsistent equations). The argument that relies on the use of Bezout theorem is rigorous when the RELUs are replaced by a polynomial nonlinearity (which empirically works as well). As described in our Theory III [2] paper, the same minimizers are degenerate and thus very likely to be found by SGD that will furthermore select with higher probability the most robust zero-minimizer. We further experimentally explored and visualized the landscape of empirical risk of a DCNN on CIFAR-10 during the entire training process and especially the global minima. Finally, based on our theoretical and experimental results, we propose an intuitive model of the landscape of DCNN's empirical loss surface, which might not be as complicated as people commonly believe.
연구 동기 및 목표
- 과다 파arametrized된 딥 네트워크에서 경험적 리스크 곡면의 구조를 이해하기, 특히 VGG나 ResNets와 같은 성공적인 DCNNs의 맥락에서.
- 매우 큰 과다 파arametrization에도 불구하고 확률적 경사하강법(SGD)이 잘 일반화되는 이유를 조사하기.
- 손실 곡면이 많은 국소 최소값과 안장점으로 매우 복잡하다는 일반적인 믿음을 도전하기.
- 이론적 및 실험적 증거를 바탕으로 손실 곡면의 단순화된 기초 모델을 제안하기.
제안 방법
- 이론적 분석은 ReLU를 다항식 또는 레지오드 전개로 근사할 경우, 다항식 근사 기반 데자르트 정리를 사용해 회귀 프레임워크 내에서 매우 많은 수의 0 오차 전역 최소값이 존재함을 증명한다.
- 분류 문제로의 확장은 0 오차가 마진을 암시함을 보여주며, 전역 최소값 주변의 평탄한 영역을 의미한다.
- CIFAR-10에서의 SGD 훈련 동안 전체 훈련 경로와 손실 곡면의 변화를 시각화하기 위해 다차원 척도법(MDS)을 사용한다.
- 작은 가우시안 노이즈를 훈련된 0 오차 모델에 추가하고 재학습하여 안정성과 수렴 경로를 평가하기 위해 펌프팅 실험을 수행한다.
- 모델 간 및 골짜기 간의 보간 실험을 통해 일반화 성능과 오차 행동을 평가한다.
- 소음의 역할을 피하기 위해 국소 최소값을 피하는 데 기여하는지 평가하기 위해 SGD와 배치 경사하강법의 훈련 동역학을 비교한다.
실험 결과
연구 질문
- RQ1과다 파arametrized된 DCNNs에 존재하는 0 경험 오차를 가진 전역 최소값은 얼마나 되며, 이들은 열화된 상태인가?
- RQ2과다 파arametrized된 DCNNs의 손실 곡면은 국소 최소값을 포함하는가, 아니면 평탄한 전역 최소값 골짜기로 지배되는가?
- RQ3훈련 중에 훈련 경로와 손실 곡면은 어떻게 변화하며, SGD의 확률성은 어떤 역할을 하는가?
- RQ4훈련된 0 오차 모델에 대한 펌프팅이 다른 수렴 경로를 유도할 수 있으며, 이는 0 훈련 오차를 유지하는가?
- RQ5손실 곡면의 구조적 단순성은 무엇이며, 이를 다차원 골짜기의 집합으로 모델링할 수 있는가?
주요 결과
- 데자르트 정리를 다항식 근사 기반으로 사용하여, 과다 파arametrized된 DCNNs 내에서 매우 많은 수의 열화된 전역 최소값이 존재함을 이론적으로 입증하였다.
- 동일한 0 오차 최소값은 매우 높은 정도의 열화를 보이며, 이는 SGD가 더 안정된 해를 선호함에 따라 더 잘 찾을 수 있음을 의미한다.
- MDS를 통한 실험적 시각화 결과, 다양한 초기화에서의 훈련 경로가 모두 동일한 0 오차 해로 수렴함을 확인하였다.
- 훈련된 0 오차 모델(M_final)에 작은 가우시안 노이즈(평균 가중치 크기의 0.01배)를 추가한 후, 400 에포크 동안의 배치 경사하강법을 수행한 결과, 훈련 오차가 증가하지 않았으며, 모든 모델이 0% 훈련 오차를 유지하였다.
- 펌프팅 이후 상당한 가중치 변화가 있었음에도 불구하고, 모든 경로는 동일한 손실 골짜기 내에 머물렀으며, 이는 손실 곡면이 국소 최소값으로 인해 분할되지 않았음을 시사한다.
- 배치 경사하강법 조건에서도 국소 최소값이 관찰되지 않았으며, 이는 손실 곡면이 평탄하고 연결된 전역 최소값 골짜기로 지배된다는 것을 의미한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.