Skip to main content
QUICK REVIEW

[논문 리뷰] Fixup Initialization: Residual Learning Without Normalization

Hongyi Zhang, Yann Dauphin|arXiv (Cornell University)|2019. 01. 27.
Advanced Neural Network Applications참고 문헌 29인용 수 112
한 줄 요약

Fixup 초기화는 잔차 분기를 신중하게 스케일링하여 업데이트가 제대로 스케일되도록 하여 정규화 없이 매우 깊은 잔차 네트워크를 학습 가능하게 한다. 이는 여러 작업에서 정규화 성능과 일치하며 적절한 정규화로 최첨단 결과를 달성할 수 있다.

ABSTRACT

Normalization layers are a staple in state-of-the-art deep neural network architectures. They are widely believed to stabilize training, enable higher learning rate, accelerate convergence and improve generalization, though the reason for their effectiveness is still an active research topic. In this work, we challenge the commonly-held beliefs by showing that none of the perceived benefits is unique to normalization. Specifically, we propose fixed-update initialization (Fixup), an initialization motivated by solving the exploding and vanishing gradient problem at the beginning of training via properly rescaling a standard initialization. We find training residual networks with Fixup to be as stable as training with normalization -- even for networks with 10,000 layers. Furthermore, with proper regularization, Fixup enables residual networks without normalization to achieve state-of-the-art performance in image classification and machine translation.

연구 동기 및 목표

  • 초기화 시 기울기 폭주를 분석하여 정규화 없이 깊은 잔차 네트워크를 학습할 필요성을 동기 부여한다.
  • 정규화 없이 안정적이고 최대 학습률로 학습할 수 있도록 잔차 분기를 스케일링하는 Fixup 초기화를 제안한다.
  • 정규화 기반 기준선과 비교하여 이미지 분류 및 기계 번역 벤치마크에서 실험적으로 Fixup을 평가한다.
  • 적절한 정규화(regularization)를 통해 표준 데이터셋에서 경쟁력 있거나 최첨단 결과를 달성할 수 있음을 보여준다.

제안 방법

  • 정규화되지 않은 ResNet의 기울기 동작을 분석하고 양의 동형성 아래에서 기울기 노름의 하한을 도출한다.
  • Fixup 초기화를 도입하여 (a) 잔차 분기 가중치를 L^{-1/(2m-2)}로 재스케일링, (b) 각 잔차 분기의 마지막 계층과 분류기 계층을 0으로 초기화, (c) 모든 분기에 스칼라 승수를 추가, (d) 각 합성곱/선형/활성화 계층 앞에 스칼라 바이어스를 추가한다.
  • 정규화 없이도 학습을 안정화하고 정규화 동역학을 모방하는 바이어스와 승수의 역할을 설명한다.
  • CIFAR-10, ImageNet 및 기계 번역 과제에 대한 실험을 통해 실용적인 지침과 Ablation 연구를 통한 통찰을 제공한다.

실험 결과

연구 질문

  • RQ1정규화 없이도 깊은 잔차 네트워크를 안정적으로 학습할 수 있는가?
  • RQ2가능하다면 동일한 최대 학습률로 학습하고 일반화 측면에서 비슷한 성능을 달성할 수 있는가?
  • RQ3학습 안정화 및 정규화 기반 기준선과 매칭하기 위한 초기화 및 아키텍처 조정(Fixup)은 무엇이 필요한가?

주요 결과

  • Fixup은 정규화 없이도 최대 학습률로 매우 깊은 잔차 네트워크를 학습 가능하게 하여 10,000 계층까지의 깊이 연구에서 BatchNorm 성능과 일치한다.
  • CIFAR-10에서 적절한 정규화로 Fixup이 표준 Xavier 초기화 대비 테스트 오차를 개선하고, 정규화 없이도 경쟁력 있는 결과를 달성할 수 있다.
  • ImageNet에서 Fixup은 표준 초기화에 비해 학습 안정성과 테스트 오차를 개선하며, Mixup 정규화가 정규화 기반 방법과의 격차를 좁히는 데 도움을 준다.
  • 기계 번역에서 LayerNorm을 Fixup으로 대체하면 BLEU 점수가 LayerNorm 벤치마크와 일치하거나 능가하여 교차 도메인 효과를 입증한다.
  • 바이어스와 분기당 스칼라 승수는 정규화와 같은 동역학을 흉내 내고 통계 계산 없이 학습을 안정화하는 데 도움이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.