QUICK REVIEW

[논문 리뷰] Towards Understanding Generalization of Deep Learning: Perspective of Loss Landscapes

Lei Wu, Zhanxing Zhu|arXiv (Cornell University)|2017. 06. 30.

Stochastic Gradient Optimization Techniques참고 문헌 19인용 수 126

한 줄 요약

본 논문은 딥 러닝의 일반화가 주로 손실 지형의 기하학 때문이며, 좋은 최소점이 큰 저류를 차지하여 무작위 초기화가 그 안에 도달하게 한다고 주장한다; 2-layer nets에 대한 이론과 더 깊은 네트워크에 대한 광범위한 실증 증거를 제공한다.

ABSTRACT

It is widely observed that deep learning models with learned parameters generalize well, even with much more model parameters than the number of training samples. We systematically investigate the underlying reasons why deep neural networks often generalize well, and reveal the difference between the minima (with the same training error) that generalize well and those they don't. We show that it is the characteristics the landscape of the loss function that explains the good generalization capability. For the landscape of loss function for deep networks, the volume of basin of attraction of good minima dominates over that of poor minima, which guarantees optimization methods with random initialization to converge to good minima. We theoretically justify our findings through analyzing 2-layer neural networks; and show that the low-complexity solutions have a small norm of Hessian matrix with respect to model parameters. For deeper networks, extensive numerical evidence helps to support our arguments.

연구 동기 및 목표

초과 매개변수화에도 불구하고 심층 신경망이 왜 잘 일반화하는지 설명한다.
동일한 학습 오차를 가진 좋은 최소점과 나쁜 최소점을 구분한다.
무작위 초기화에서의 최적화가 왜 좋은 최소점을 찾는 경향이 있는지 설명한다.
경험적 관찰을 손실 함수의 이론적 지형 속성에 연결한다.

제안 방법

동적 시스템의 basin-of-attractor 개념을 사용하여 손실 지형을 분석한다.
저류 용적 및 해의 복잡성을 정량화하기 위해 Hessian 기반 메트릭을 개발한다.
저복잡도 해를 작은 Hessian 노름과 연관시키기 위해 2-layer 네트워크를 이론적으로 분석한다.
Hessian 스펙트럼 및 근사 Hessian 노름을 통해 더 깊은 네트워크에 대한 실증적 증거를 제공한다.
같은 학습 오차를 가진 나쁜 최소점을 생성하는 적대적 데이터 설정을 도입한다.

실험 결과

연구 질문

RQ1동일한 학습 오차를 가진 좋은(일반화가 잘 되는) 최소점과 나쁜 최소점을 구분하는 특성은 무엇인가?
RQ2무작위 초기화를 사용하는 최적화 방법이 왜 심층 네트워크에서 거의 확실하게 좋은 최소점으로 수렴하는가?
RQ3손실 지형의 기하학이 좋은 저류의 우세에 어떤 영향을 미치는가?
RQ4초기화, 최적화 동역학, 그리고 지형 구조가 일반화에 어느 정도 기여하는가?

주요 결과

좋은 최소점은 큰 유입 영역(저류)에 위치하며, 이들 저류의 부피가 나쁜 최소점보다 우세하다.
무작위 초기화는 매개변수를 압도적 확률로 좋은 저류에 위치시키고, 잘 일반화되는 해로 수렴하게 한다.
2-layer 네트워크에서의 저복잡도 해는 작은 Hessian 노름을 가지며, 이는 큰 저류를 가진 평평한 영역을 나타낸다.
SGD 만이 좋은 일반화를 유발하는 유일한 원인은 아니며, 지형 구조가 결과를 크게 좌우한다.
경험적 Hessian 스펙트럼 분석은 좋은 최소점이 많은 거의 제로에 가까운 고유값이 있는 넓은 계곡에 위치하는 반면, 나쁜 최소점은 더 큰 고유값과 더 촘촘한 계곡을 가진다는 것을 보여준다.
작고 큰 네트워크에 대한 실험에서 Hessian의 스펙트럴 추정치가 일반화 성능과 상관관계를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.