[논문 리뷰] L2 Regularization versus Batch and Weight Normalization
이 논문은 정규화(Batch, Weight, 또는 Layer Normalization)와 함께 사용할 때 L2 정규화가 실제 정규화 효과를 가지지 않으며, 대신 가중치 규모와 유효 학습률을 변화시키는 것을 이론적으로와 CIFAR-10에서 경험적으로 탐구한다.
Batch Normalization is a commonly used trick to improve the training of deep neural networks. These neural networks use L2 regularization, also called weight decay, ostensibly to prevent overfitting. However, we show that L2 regularization has no regularizing effect when combined with normalization. Instead, regularization has an influence on the scale of weights, and thereby on the effective learning rate. We investigate this dependence, both in theory, and experimentally. We show that popular optimization methods such as ADAM only partially eliminate the influence of normalization on the learning rate. This leads to a discussion on other ways to mitigate this issue.
연구 동기 및 목표
- 정규화가 사용될 때 L2 정규화가 진정한 정규화를 제공하는지 여부를 조사한다.
- 정규화 하에서 가중치 규모가 기울기 업데이트와 학습률에 어떤 영향을 미치는지 분석한다.
- 가중치 스케일링이 일반적인 최적화 알고리즘과 어떻게 상호 작용하는지 이론적으로 도출한다.
- CIFAR-10에서 λ, η, 가중치 노름 간의 관계를 실험적으로 검증한다.
제안 방법
- 정규화하에 objective Lλ(w) = L(w) + λ||w||^2 를 분석하되 y(Xi; αw, γ, β) = y(Xi; w, γ, β)로 한다.
- Lλ(αw) = Lλα^2(w)임을 보여 주며, 이는 정규화 항이 함수를 바꾸지 않고 가중치를 더 작은 스케일로 이동시킴을 시사한다.
- 가중치 스케일링에 따라 ∇yBN 및 ∇yWN이 어떻게 스케일링되는지 도출하고, 이를 통해 다양한 최적화 알고리즘에서 유효학습률 ηeff = η/||w||^2를 얻는 방법을 보여준다.
- SGD, Momentum, RMSProp, ADAM 및 Newton/헤essian 기반 접근 방식에서 ηeff에 대한 이론적 표현을 제공한다.
- 4-층 CNN과 Batch Normalization을 사용한 CIFAR-10에서 λ, η 및 가중치 노름 간의 상호 작용을 설명하는 실험적 검증을 수행한다.
실험 결과
연구 질문
- RQ1Batch/Weight/Layer Normalization을 사용할 때 L2 정규화가 함수에 대해 정규화를 제공하는가?
- RQ2정규화 하에서 일반적인 최적화 알고리즘들에 대해 가중치의 규모가 유효 학습률에 어떤 영향을 미치는가?
- RQ3가중치를 정규화하거나 특정 최적화 알고리즘을 선택하는 것이 λ와 학습률의 상호 작용을 완화시킬 수 있는가?
- RQ4Batch Normalization 하에서 λ와 η를 다르게 할 때 CIFAR-10에서 나타나는 경험적 행동은 무엇인가?
주요 결과
- 정규화 하에서 L2 정규화는 함수에 대해 정규화를 제공하지 않고, 가중치를 더 작은 스케일로만 밀어낸다.
- 기울기와 따라서 유효 학습률은 가중치 스케일에 의존하며, 여러 최적화 알고리즘에서 ηeff가 ||w||^2에 반비례한다.
- 정규화 하에서 가중치 스케일을 감소시키면 유효 학습률이 증가하여 제어되지 않으면 학습이 불안정해질 수 있다.
- SGD와 Nesterov 모멘텀의 경우 최적 학습률은 대략 η* ∝ 1/λ로 스케일링되는 경향이 있다; RMSProp과 ADAM의 경우 η* ∝ 1/√λ이다.
- 업데이트 후 가중치를 단위 놈으로 정규화하는 것은 학습 역학의 λ 의존성을 대체로 제거한다.
- CIFAR-10에서 ηeff의 대각선이 대략 일정한 검정 오류를 보이는 것으로, 이론적 ηeff 관계를 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.