QUICK REVIEW

[논문 리뷰] Slowing Down the Weight Norm Increase in Momentum-based Optimizers

Byeongho Heo, Sanghyuk Chun|arXiv (Cornell University)|2020. 06. 15.

Advanced Neural Network Applications참고 문헌 19인용 수 22

한 줄 요약

논문은 모멘텀 기반 최적화기인 SGD와 Adam이 배치 정규화와 함께 사용될 경우 척도 불변성으로 인해 통제되지 않는 가중치 노름 증가를 악화시켜 효과적인 학습률이 억제되고 성능이 열등해지는 것을 규명한다. 이를 해결하기 위해, 중복된 노름 증가를 방지하기 위해 가중치 업데이트의 반경 성분을 제거하는 SGDP와 AdamP를 제안하며, 다양한 딥러닝 작업에서 향상된 학습 안정성과 성능을 달성한다.

ABSTRACT

Normalization techniques, such as batch normalization (BN), have led to significant improvements in deep neural network performances. Prior studies have analyzed the benefits of the resulting scale invariance of the weights for the gradient descent (GD) optimizers: it leads to a stabilized training due to the auto-tuning of step sizes. However, we show that, combined with the momentum-based algorithms, the scale invariance tends to induce an excessive growth of the weight norms. This in turn overly suppresses the effective step sizes during training, potentially leading to sub-optimal performances in deep neural networks. We analyze this phenomenon both theoretically and empirically. We propose a simple and effective solution: at each iteration of momentum-based GD optimizers (e.g. SGD or Adam) applied on scale-invariant weights (e.g. Conv weights preceding a BN layer), we remove the radial component (i.e. parallel to the weight vector) from the update vector. Intuitively, this operation prevents the unnecessary update along the radial direction that only increases the weight norm without contributing to the loss minimization. We verify that the modified optimizers SGDP and AdamP successfully regularize the norm growth and improve the performance of a broad set of models. Our experiments cover tasks including image classification and retrieval, object detection, robustness benchmarks, and audio classification. Source code is available at this https URL.

연구 동기 및 목표

모멘텀 기반 최적화기와 배치 정규화를 조합할 경우 발생하는 가중치 노름 증가의 부정적 영향을 조사하는 것.
배치 정규화층의 척도 불변성이 학습 도중 과도한 가중치 노름 증가로 이어지는 이유를 분석하는 것.
수렴과 모델 성능 저하를 초래하는 효과적 스텝 크기의 억제를 해결하는 것.
네트워크 아키텍처를 수정하지 않고도 가중치 노름 증가를 효과적으로 정규화하는 단순한 방법을 개발하는 것.
다양한 딥러닝 작업과 모델에서 제안된 방법을 경험적으로 검증하는 것.

제안 방법

각 최적화 단계에서, 현재 가중치 벡터에 평행한 성분(즉, 반경 성분)을 제거한 후 업데이트를 적용한다.
이를 위해 업데이트 벡터를 가중치 벡터에 투영한 결과를 빼내어 손실 향상 없이 노름만 증가시키는 변화를 제거한다.
이 방법은 기존의 모멘텀 기반 최적화기인 SGD와 Adam에 적용되어 각각 SGDP와 AdamP로 이어진다.
수정은 경량이며 기존 학습 파이프라인과 호환되며, 표준 최적화기 설정 외에 추가 하이퍼파라미터 조정이 필요하지 않다.
배치 정규화의 유용한 척도 불변성을 유지하면서도 안정성을 해치는 노름 증가를 방지한다.
반경 성분 제거는 업데이트 벡터가 가중치 노름 구면의 탄젠트 공간에 위치하도록 제약을 걸기와 수학적으로 동치이다.

실험 결과

연구 질문

RQ1배치 정규화와 모멘텀 기반 최적화기의 조합이 학습 도중 가중치 노름 역학에 어떤 영향을 미치는가?
RQ2척도 불변성에도 불구하고 과도한 가중치 노름 증가가 딥 네트워크의 성능을 떨어뜨리는 이유는 무엇인가?
RQ3최적화 과정에서 반경 업데이트를 제거함으로써 학습 안정성과 일반화 성능을 향상시킬 수 있는가?
RQ4제안된 SGDP와 AdamP 최적화기는 다양한 아키텍처와 작업에서 표준 SGD와 Adam과 비교해 어떻게 성능을 내는가?
RQ5제안된 방법은 강건성 벤치마크와 후행 작업에서 성능을 유지하거나 향상시키는가?

주요 결과

제안된 SGDP와 AdamP 최적화기는 배치 정규화된 네트워크에서 가중치 노름 증가를 성공적으로 정규화하여 학습 도중 과도한 증가를 방지한다.
수정된 최적화기는 이미지 분류, 객체 검출, 오디오 분류 작업에서 더 나은 일반화와 더 빠른 수렴을 달성한다.
ImageNet과 Cifar-100을 포함한 여러 벤치마크에서 표준 SGD와 Adam보다 SGDP와 AdamP가 우수한 성능을 보이며 상위-1 정확도에서 일관된 향상이 있었다.
분포 이탈과 적대적 예측에 대한 강건성이 향상되어 편향이 있는 조건에서도 더 강한 일반화 성능을 보였다.
반경 업데이트 제거의 계산 오버헤드는 극히 적고, ResNets, 비전 트랜스포머, EfficientNet을 포함한 다양한 모델에서 효과적이다.
경험적 결과는 노름 증가로 인해 억제되는 효과적 스텝 크기 문제가 완화되어 더 안정적이고 효율적인 학습이 가능하다는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.