[논문 리뷰] Bad Global Minima Exist and SGD Can Reach Them
이 논문은 과다 파rameter화된 딥 네트워크에서 나쁜 전역 최소값—학습 오차가 0이지만 일반화 성능이 열악한 모델—이 존재함을 보여준다. 랜덤 레이블 학습에서 유도된 적대적 초기화를 통해 SGD는 CIFAR, CINIC10, ImageNet에서 이러한 열악한 해에 신속히 수렴하며, 테스트 정확도를 최대 40%까지 떨어뜨린다. 그러나 데이터 증강과 같은 정규화 기법을 통해 일반화 성능이 복구된다.
Several recent works have aimed to explain why severely overparameterized models, generalize well when trained by Stochastic Gradient Descent (SGD). The emergent consensus explanation has two parts: the first is that there are bad local while the second is that SGD performs implicit regularization by having a bias towards low complexity models. We revisit both of these ideas in the context of image classification with common deep neural network architectures. Our first finding is that there exist bad global minima, i.e., models that fit the training set perfectly, yet have poor generalization. Our second finding is that given only unlabeled training data, we can easily construct initializations that will cause SGD to quickly converge to such bad global minima. For example, on CIFAR, CINIC10, and (Restricted) ImageNet, this can be achieved by starting SGD at a model derived by fitting random labels on the training data: while subsequent SGD training (with the correct labels) will reach zero training error, the resulting model will exhibit a test accuracy degradation of up to 40% compared to training from a random initialization. Finally, we show that regularization seems to provide SGD with an escape route: once heuristics such as data augmentation are used, starting from a complex model (adversarial initialization) has no effect on the test accuracy.
연구 동기 및 목표
- SGD로 훈련된 과다 파arameter화된 딥 네ural 네트워크에서 나쁜 전역 최소값이 존재하는지 조사하기.
- 랜덤 레이블로 훈련된 복잡한 적대적 모델에서 초기화된 경우 SGD가 이러한 열악한 일반화 성능을 보이는 해에 수렴할 수 있는지 검토하기.
- 정규화가 나쁜 전역 최소값에서 벗어나도록 도와주는 데서의 역할을 평가하기.
- 랜덤 레이블 피팅에서 유도된 적대적 초기화가 표준 이미지 분류 벤치마크에서 성능 저하를 초래하는지 테스트하기.
제안 방법
- 훈련 세트의 랜덤으로 섞인 레이블로 모델을 훈련하여 적대적 초기화를 구성하기.
- 이러한 적대적 모델로 SGD를 초기화하고 올바른 레이블로 훈련하여 전역 최소값 수렴 여부 평가하기.
- 수렴 후 일반화 성능 평가를 위해 훈련 정확도와 테스트 정확도 측정하기.
- 랜덤 가중치 초기화와 적대적 초기화를 사용한 모델 간의 테스트 정확도 비교하기.
- 데이터 증강 및 기타 정규화 히우리스틱 적용하여 열악한 해에서 벗어나도록 영향 평가하기.
- 결과를 다양한 데이터셋에서 검증하기 위해 CIFAR-10, CINIC-10, (제한된) ImageNet에서 실험 수행하기.
실험 결과
연구 질문
- RQ1표준 이미지 분류 데이터셋에서 SGD로 훈련된 과다 파arameter화된 딥 네트워크에서 나쁜 전역 최소값이 존재하는가?
- RQ2랜덤 레이블로 훈련된 모델에서 초기화된 경우 SGD가 이러한 나쁜 전역 최소값에 수렴할 수 있는가?
- RQ3데이터 증강 및 기타 정규화 기법의 사용이 SGD가 이러한 열악한 해에서 벗어나도록 도와주는가?
- RQ4랜덤 초기화와 비교했을 때, 적대적 초기화에서 시작할 경우 테스트 정확도는 얼마나 떨어지는가?
- RQ5정규화가 적용된 경우, SGD의 일반화 성능가 초기화 방법의 선택에 민감한가?
주요 결과
- 딥 네트워크에서 나쁜 전역 최소값이 존재하며, 이는 모델이 0%의 훈련 오차를 달성하지만 일반화 성능이 열악함을 의미한다.
- 랜덤으로 레이블이 섞인 데이터로 훈련된 모델에서 초기화된 경우, SGD는 이러한 나쁜 전역 최소값에 신속히 수렴할 수 있다.
- CIFAR-10, CINIC-10, (제한된) ImageNet에서 이러한 적대적 초기화는 랜덤 초기화 대비 최대 40%까지 테스트 정확도 저하를 초래한다.
- 데이터 증강 및 기타 정규화 히우리스틱의 사용은 일반화 성능을 복구하며, 효과적으로 SGD가 열악한 해에서 벗어나도록 한다.
- 정규화는 SGD가 나쁜 해에서 벗어나도록 도와주는 길을 제공하며, 최종 모델의 성능을 초기화 방법의 선택에 관계없이 안정적으로 유지시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.