QUICK REVIEW

[논문 리뷰] Three Mechanisms of Weight Decay Regularization

Guodong Zhang, Chaoqi Wang|arXiv (Cornell University)|2018. 10. 29.

Neural Networks and Applications참고 문헌 20인용 수 55

한 줄 요약

논문은 가중치 감소 정규화가 다양한 옵티마이저와 아키텍처에서 일반화 성능을 개선하는 세 가지 구분된 메커니즘을 식별합니다: 더 높은 유효 학습률, 근사 Jacobian 노름 정규화, 그리고 2차 방법의 감쇠 효과 감소.

ABSTRACT

Weight decay is one of the standard tricks in the neural network toolbox, but the reasons for its regularization effect are poorly understood, and recent results have cast doubt on the traditional interpretation in terms of $L_2$ regularization. Literal weight decay has been shown to outperform $L_2$ regularization for optimizers for which they differ. We empirically investigate weight decay for three optimization algorithms (SGD, Adam, and K-FAC) and a variety of network architectures. We identify three distinct mechanisms by which weight decay exerts a regularization effect, depending on the particular optimization algorithm and architecture: (1) increasing the effective learning rate, (2) approximately regularizing the input-output Jacobian norm, and (3) reducing the effective damping coefficient for second-order optimization. Our results provide insight into how to improve the regularization of neural networks.

연구 동기 및 목표

전통적인 L2 해석을 넘어 가중치 감소가 일반화 성능을 향상시키는 이유를 조사한다.
CNN 아키텍처에서 SGD, Adam, 및 K-FAC를 대상으로 가중치 감소와 L2 정규화를 비교한다.
Batch Normalization 및 다양한 옵티마이저와의 상호 작용이 훈련 역학에 어떤 영향을 미치는지 설명한다.

제안 방법

SGD, Adam, 및 K-FAC(GN 및 Fisher 변형)에서 가중치 감소와 L2 정규화의 효과를 분석한다.
BN-영향 네트워크를 검사하여 표현 제약과 가중치 스케일을 분리한다.
유효 학습률, Gauss-Newton / Jacobian 노름, 및 2차 업데이트의 감쇠에 대한 해석을 도출하고 테스트한다.
VGG 및 ResNet 아키텍처를 사용하여 CIFAR-10/100에서 훈련 중 유효 학습률, Jacobian 노름, 및 감쇠 항을 경험적으로 측정한다.

실험 결과

연구 질문

RQ1다양한 옵티마이저 및 BN-enabled 아키텍처에서 가중치 감소의 정규화 효과를 설명하는 메커니즘은 무엇인가?
RQ2일반화 성능 측면에서 SGD, Adam, K-FAC에서 가중치 감소와 L2 정규화는 어떻게 비교되는가?
RQ3세 가지로 확인된 메커니즘(유효 학습률, Jacobian 노름 정규화, 감쇠 제어)이 관찰된 일반화 차이를 설명할 수 있는가?
RQ4BN이 가중치 감소가 훈련 역학에 미치는 영향을 매개하는 데 어떤 역할을 하는가?

주요 결과

가중치 감소는 일관되게 일반화를 향상시키며 차이가 있을 때 종종 L2 정규화보다 낫다.
가중치 감소는 1차 계와 2차 계 옵티마이저 간의 일반화 격차와 작은 배치와 큰 배치 간의 일반화 격차를 줄인다.
BN 활성 네트워크에서도 가중치 감소가 성능을 향상시키며, 일반적인 의미에서 용량을 제약하지는 않는다.
가중치 감소는 특히 BN이 비활성화될 때 K-FAC에 강력한 향상을 제공하며 2차 특성을 강화한다.
메커니즘 I: BN 네트워크에서 SGD/Adam일 때 가중치 감소는 가중치 스케일링을 통해 유효 학습률을 증가시키고 그래디언트 소음 정규화를 강화하는 방식으로 작용한다.
메커니즘 II: K-FAC의 경우 가중치 감소는 Gauss-Newton 노름을 통해 입력-출력 Jacobian을 대략적으로 정규화하고 Jacobian 노름 및 일반화와 상관관계가 있다.
메커니즘 III: BN 네트워크에서 K-FAC와 함께 가중치 감소는 유효 감쇠를 감소시켜 2차 특성을 유지하고 일반화를 향상시키는 데 도움이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.