QUICK REVIEW

[논문 리뷰] Sharp Minima Can Generalize For Deep Nets

Laurent Dinh, Razvan Pascanu|arXiv (Cornell University)|2017. 03. 15.

Stochastic Gradient Optimization Techniques참고 문헌 51인용 수 148

한 줄 요약

본 논문은 일반화의 관점에서 평탄도/날카로움의 기존 개념이 딥 네트의 일반화를 설명하기에 충분하지 않다고 주장하며, 비식별성과 재매개변화로 인해 동등한 모델이 임의로 날카롭거나 평평한 최소로 관찰될 수 있음을 보여주고, 평평한 최소 기반의 설명에 도전한다.

ABSTRACT

Despite their overwhelming capacity to overfit, deep learning architectures tend to generalize relatively well to unseen data, allowing them to be deployed in practice. However, explaining why this is the case is still an open area of research. One standing hypothesis that is gaining popularity, e.g. Hochreiter & Schmidhuber (1997); Keskar et al. (2017), is that the flatness of minima of the loss function found by stochastic gradient based methods results in good generalization. This paper argues that most notions of flatness are problematic for deep models and can not be directly applied to explain generalization. Specifically, when focusing on deep networks with rectifier units, we can exploit the particular geometry of parameter space induced by the inherent symmetries that these architectures exhibit to build equivalent models corresponding to arbitrarily sharper minima. Furthermore, if we allow to reparametrize a function, the geometry of its parameters can change drastically without affecting its generalization properties.

연구 동기 및 목표

깊은 렐루(ReLU) 네트워크에서 평탄도 기반 일반화 설명의 타당성을 평가한다.
매개변수 공간 기하와 관찰 가능 동등성이 평탄도 척도에 어떤 영향을 미치는지 보여준다.
재매개변화가 일반화를 바꾸지 않으면서도 지각된 날카로움을 급격히 바꿀 수 있음을 시연한다.

제안 방법

부피 기반, 해시안(Hessian) 기반, 그리고 엡실론-날카로움 등 여러 평탄도/날카로움 지표를 정의하고 비교한다.
비음수 동질성(non-negative homogeneity)과 alpha-scale 변환을 통해 Rectified 네트워크의 비식별성을 폭로한다.
alpha-scale 변환이 예측을 바꾸지 않으면서도 최소점 주위에 무한히 큰 평탄 영역을 만들거나 해시안 스펙트럼을 임의로 크게 만들 수 있음을 입증한다.
다층 네트워크로 변환을 일반화하고 D_alpha를 통해 해시안 고유값에 대한 함의를 도출한다.

실험 결과

연구 질문

RQ1표준 평탄도 개념이 깊은 렐루 네트워크의 일반화를 신뢰할 만히 예측하는가?
RQ2관찰적으로 동등한 파라미터화가 일반적인 지표 하에서 임의로 날카롭거나 평평한 최소점을 낳을 수 있는가?
RQ3재매개변화가 최소 기하학과 일반화 사이의 관계에 어떤 영향을 미치는가?
RQ4딥 넷에서 해시안 기반 지표를 일반화의 대리변수로 사용할 때의 한계는 무엇인가?

주요 결과

Volume-based epsilon-flatness는 일반적인 1-은닉층 Rectified 네트에서 무한대로 확장될 수 있어, 모든 최소가 해당 지표 하에서 동등하게 평평해 보인다.
해시안 기반 척도(스펙트럴 노름, 트레이스 등)는 함수 변경 없이 alpha-scale 변환에 의해 임의로 조작될 수 있다.
관찰적으로 동등한 최소점이 임의로 큰 해시안 고유값을 가질 수 있어 날카로움과 일반화 간의 연결에 도전한다.
깊은 네트워크의 경우, 파라미터 스케일링을 통해 해시안 고유값의 일부가 크게 되도록 만들어 날카로운 방향이 존재하면서도 일반화에 영향을 주지 않을 수 있다.
재매개변화(가중치 정규화 및 배치 정규화 변형 포함)는 최소점의 지각 기하를 바꿀 수 있지만 일반화에는 영향을 남기지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.