QUICK REVIEW

[논문 리뷰] On the Implicit Bias of Dropout

Poorya Mianjy, Raman Arora|arXiv (Cornell University)|2018. 06. 26.

Stochastic Gradient Optimization Techniques인용 수 30

한 줄 요약

이 논문은 단일층 선형 신경망에서 드롭아웃의 암묵적 편향에 대한 이론적 분석을 제공하며, 드롭아웃이 들어오는 가중치 벡터와 나가는 가중치 벡터의 노름을 동일하게 하여 암묵적으로 정규화함을 보여준다. 드롭아웃이 경로 정규화를 최소화하는 해로 수렴함을 증명하며, 이는 과다 매개변수화된 설정에서 일반화를 보장하기 위해 더 평탄하고 복잡도가 낮은 해를 선호함으로써 성능을 높인다.

ABSTRACT

Algorithmic approaches endow deep learning systems with implicit bias that helps them generalize even in over-parametrized settings. In this paper, we focus on understanding such a bias induced in learning through dropout, a popular technique to avoid overfitting in deep learning. For single hidden-layer linear neural networks, we show that dropout tends to make the norm of incoming/outgoing weight vectors of all the hidden nodes equal. In addition, we provide a complete characterization of the optimization landscape induced by dropout.

연구 동기 및 목표

딥 러닝에서 드롭아웃이 유도하는 암묵적 편향을 이해하는 것, 특히 과다 매개변수화된 모델에서의 경우.
단일층 선형 네트워크에서 드롭아웃의 최적화 지형을 특성화하는 것.
특히 가중치가 연결된 오토인코더의 맥락에서 드롭아웃이 수렴하는 해를 특정하는 것.
드롭아웃의 인도적 편향을 알려진 용량 제어 메커니즘인 경로 정규화와 공식적으로 연결하는 것.
과다 매개변수화된 설정에서 드롭아웃이 최소 경로 노름을 갖는 해를 선호함을 입증하는 것, 이는 일반화를 지원한다.

제안 방법

가중치 벡터의 L2 노름의 곱을 포함하는 정규화된 목적 함수를 최소화하는 것으로 드롭아웃을 갖는 확률적 경사 하강법을 분석한다.
암묵적 정규화자의 명시적 형태를 $ \lambda \sum_{i=1}^{r} \|\mathbf{u}_i\|^2 \|\mathbf{v}_i\|^2 $ 로 유도하며, 여기서 $ \lambda = \frac{1-\theta}{\theta} $ 이고, 이를 경로 정규화와 연결한다.
스펙트럼 분해와 직교 변환을 사용하여 임계점과 그 안정성을 분석한다.
이阶 도함수 분석(헤시안과 방향 도함수)을 적용하여 임계점을 엄격한 안장점 또는 국소 최소점으로 분류한다.
드롭아웃 하의 전역 최소점이 동일한 모델의 모든 분해 중에서 경로 노름 $ \psi_2(\mathbf{U}, \mathbf{V}) $ 을 최소화함을 증명한다.
연결된 오토인코더의 경우, 모든 국소 최소점이 전역 최소점이며, 은닉 유닛 간에 노름을 동일하게 하고 경로 노름을 최소화함을 보여준다.

실험 결과

연구 질문

RQ1단일층 선형 네트워크에서 드롭아웃은 어떤 암묵적 편향을 유도하는가?
RQ2드롭아웃의 최적화 지형은 표준 경사 하강법과 어떻게 다른가?
RQ3드롭아웃은 최소 경로 정규화를 갖는 해를 선호하는가? 만약 그렇다면, 이는 일반화를 어떻게 지원하는가?
RQ4특히 연결된 오토인코더 설정에서, 드롭아웃의 모든 국소 최소점은 해의 품질 측면에서 동일한가?
RQ5드롭아웃의 암묵적 편향을 알려진 정규화 메커니즘인 경로 정규화와 공식적으로 연결할 수 있는가?

주요 결과

드롭아웃은 가중치 벡터의 L2 노름의 제곱 곱의 합을 최소화함으로써 암묵적으로 정규화하며, 이는 경로 정규화자 제곱을 최소화하는 것과 동일하다.
드롭아웃 목표 함수의 모든 전역 최소점은 $ \psi_2(\tilde{\mathbf{U}}, \tilde{\mathbf{V}}) = \min\{ \psi_2(\mathbf{U}, \mathbf{V}) \mid \mathbf{U}\mathbf{V}^T = \tilde{\mathbf{U}}\tilde{\mathbf{V}}^T \} $ 를 만족하며, 이는 동일한 분해 중에서 경로 노름을 최소화함을 의미한다.
연결된 오토인코더의 경우, 모든 국소 최소점이 전역 최소점이며, 은닉 유닛 간에 노름을 동일하게 한다.
활성화된 은닉 유닛이 데이터 공분산 행렬의 상위 고유벡터에 대응하지 않는 임계점은 엄격한 안장점이다.
헤시안 분석을 통해 비최적의 임계점은 비퇴화된 안장점임을 확인하였으며, 이는 경사 하강법 하에서 좋은 해로의 수렴을 보장한다.
드롭아웃의 암묵적 편향은 경로 정규화를 통한 크기 독립적 용량 제어와 동일하며, 이는 과다 매개변수화된 모델에서의 성공을 설명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.