Skip to main content
QUICK REVIEW

[논문 리뷰] All You Need is Beyond a Good Init: Exploring Better Solution for Training Extremely Deep Convolutional Neural Networks with Orthonormality and Modulation

Di Xie, Jiang Xiong|arXiv (Cornell University)|2017. 03. 06.
Advanced Neural Network Applications참고 문헌 17인용 수 37
한 줄 요약

이 논문은 평면 컨볼루션 신경망(CNN)의 초초기화된 훈련을 위한 새로운 방법을 제안한다. 이는 정규직교 성질을 가진 가중치 정규화와 준등장성 가정 기반의 역전파 오차 조절 메커니즘을 사용한다. 필터 벡터 간의 정규직교성을 강제로 유지하고, 역전파 과정에서 오차 크기를 동적으로 조절함으로써, 단순 연결이 없는 44층 및 110층의 평면 네트워크를 훈련시켜 CIFAR-10 및 ImageNet에서 잔차 네트워크와 동등하거나 이를 초월하는 정확도를 달성할 수 있다.

ABSTRACT

Deep neural network is difficult to train and this predicament becomes worse as the depth increases. The essence of this problem exists in the magnitude of backpropagated errors that will result in gradient vanishing or exploding phenomenon. We show that a variant of regularizer which utilizes orthonormality among different filter banks can alleviate this problem. Moreover, we design a backward error modulation mechanism based on the quasi-isometry assumption between two consecutive parametric layers. Equipped with these two ingredients, we propose several novel optimization solutions that can be utilized for training a specific-structured (repetitively triple modules of Conv-BNReLU) extremely deep convolutional neural network (CNN) WITHOUT any shortcuts/ identity mappings from scratch. Experiments show that our proposed solutions can achieve distinct improvements for a 44-layer and a 110-layer plain networks on both the CIFAR-10 and ImageNet datasets. Moreover, we can successfully train plain CNNs to match the performance of the residual counterparts. Besides, we propose new principles for designing network structure from the insights evoked by orthonormality. Combined with residual structure, we achieve comparative performance on the ImageNet dataset.

연구 동기 및 목표

  • 역전파 과정에서 기울기 소실/폭발 문제로 인해 초초기화된 평면 CNN 훈련 시 성능 저하 문제가 발생하는 것을 해결하기 위해.
  • 배치 정규화와 ReLU의 한계를 규명하여 깊은 네트워크에서 신호 크기의 유지에 기여하는 요소를 파악하기 위해.
  • 정규직교성과 적응형 오차 조절을 활용해, 잔차 구조 없이 초초기화된 네트워크를 직접 훈련할 수 있는 비잔차적 해법을 개발하기 위해.
  • 가중치 공간에서 신호 보존과 등장성 기반의 새로운 딥 네트워크 아키텍처 설계 원칙을 제공하기 위해.
  • 정규직교성 정규화가 표준 L2 가중치 감소보다 우수하며, 잔차 네트워크와 경쟁 가능한 성능을 낼 수 있음을 입증하기 위해.

제안 방법

  • 각 컨볼루션 레이어 내에서 필터 벡터 간의 정규직교성을 강제로 유지하는 정규직교 정규화 기법을 도입하여 역전파 오차 전파의 안정성을 높인다.
  • 연속적인 매개변수 레이어 간의 준등장성 가정 기반으로 오차 크기 조절 메커니즘을 제안하여 오차 크기의 확대를 제어한다.
  • 반복적인 Conv-BN-ReLU 모듈로 구성된 표준 평면 CNN 아키텍처에 정규화 및 조절 기법을 적용한다.
  • 수학적 분석과 실험적 검증을 통해 정규직교성이 신호 노름을 유지하고 기울기 소실 문제를 완화함을 보여준다.
  • ReLU와 배치 정규화로 인한 신호 감쇠를 상쇄하기 위해 계층별로 적응형으로 오차 기울기의 스케일링을 수행한다.
  • 표준 L2 가중치 감소를 정규직교 정규화로 대체하여 깊은 네트워크에서 최적화 안정성을 향상시킨다.

실험 결과

연구 질문

  • RQ1단순 연결 없이 정규직교 정규화만으로 초초기화된 평면 CNN의 훈련을 안정화시킬 수 있는가?
  • RQ2필터 벡터 간의 정규직교성이 깊은 네트워크에서 신호 전파 및 기울기 안정성에 어떤 영향을 미치는가?
  • RQ3준등장성 기반의 오차 조절 메커니즘이 깊은 네트워크에서 역전파 과정에서 오차 크기를 효과적으로 제어할 수 있는가?
  • RQ4제안된 방법이 ImageNet 및 CIFAR-10에서 잔차 네트워크와 동등하거나 이를 초월하는 성능을 달성할 수 있는가?
  • RQ5정규직교성과 동적 오차 조절을 강제로 적용함으로써 도출된 아키텍처 및 최적화 통찰은 무엇인가?

주요 결과

  • 44층 평면 네트워크를 사용해 CIFAR-10에서 88.42%의 top-1 정확도를 달성하여 표준 SGD 및 기타 최적화 기법을 능가했다.
  • 110층 평면 네트워크에서는 CIFAR-10에서 81.6%의 top-1 정확도를 기록하여 기존 기준 방법보다 뚜렷한 향상을 보였다.
  • 정규직교 정규화를 적용한 44층 평면 네트워크가 ImageNet에서 34층 잔차 네트워크와 동등한 성능을 보였다.
  • ImageNet에서 101층 평면 네트워크를 사용해 70.0%의 top-1 정확도를 달성하여 CIFAR-10을 초월하는 일반화 능력을 입증했다.
  • 시각화 결과 정규직교 정규화가 L2 정규화보다 더 구조적이고 노이즈가 적은 특징 맵을 생성하는 것으로 나타났다.
  • 실험을 통해 정규직교성이 기울기 소실 문제를 감소시키고 수렴 속도를 향상시킴을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.