[논문 리뷰] DiracNets: Training Very Deep Neural Networks Without Skip-Connections
DiracNets는 Dirac 가중치 매개화를 사용하여 명시적 스킵 연결 없이 매우 깊은 plain 네트워크를 학습시키고, 근사적으로 ResNet/WRN 성능을 달성하며 추론 시 간단한 컨볼루션-ReLU 체로 접힌다.
Deep neural networks with skip-connections, such as ResNet, show excellent performance in various image classification benchmarks. It is though observed that the initial motivation behind them - training deeper networks - does not actually hold true, and the benefits come from increased capacity, rather than from depth. Motivated by this, and inspired from ResNet, we propose a simple Dirac weight parameterization, which allows us to train very deep plain networks without explicit skip-connections, and achieve nearly the same performance. This parameterization has a minor computational cost at training time and no cost at all at inference, as both Dirac parameterization and batch normalization can be folded into convolutional filters, so that network becomes a simple chain of convolution-ReLU pairs. We are able to match ResNet-1001 accuracy on CIFAR-10 with 28-layer wider plain DiracNet, and closely match ResNets on ImageNet. Our parameterization also mostly eliminates the need of careful initialization in residual and non-residual networks. The code and models for our experiments are available at https://github.com/szagoruyko/diracnets
연구 동기 및 목표
- 이미지 분류에서 스킵 연결과 깊이 증가의 한계를 이해한다.
- 끝까지 엔드-투-엔드로 학습할 수 있도록 매우 깊은 plain 네트워크를 가능하게 하는 Dirac 가중치 매개화(parameterization)를 제안한다.
- DiracNet의 CIFAR 및 ImageNet에서의 성능을 ResNet 및 WRN과 비교하여 시연한다.
- Dirac 매개화가 초기화와 상호 작용하는 방식과 추론 시 접히는 방법을 보인다.
제안 방법
- 가중치 W_hat = diag(a)I + W(선택적으로 W_hat = diag(a)I + diag(b)W_norm인 가중치 정규화 포함)인 Dirac 매개화를 도입한다.
- a를 ~1, b를 ~0.1로 초기화; W는 N(0,1)에서 초기화; a,b에 대한 L2 정규화 없음.
- 가중치 정규화와 접힘을 사용하여 매우 깊은 plain 네트워크를 학습한다; CIFAR 및 ImageNet에서 ResNet/WRN과 비교한다.
- 암시적 스킵 연결을 보여주고 비선형성의 순서를 논의하여 Dirac 매개화를 ResNet과 연관시킨다.
- Plain 및 DiracNet 변형으로 CIFAR를 평가하고, DiracNet-18/34와 ResNet-18/34를 비교하여 ImageNet에서 평가한다.
- DiracNet이 계층별 사전 학습 없이 엔드-투-엔드로 학습될 수 있으며 추론 시 VGG 유사한 체로 접을 수 있음을 입증한다.
실험 결과
연구 질문
- RQ1Dirac 매개화가 명시적 스킵 연결 없이 수백 층의 학습을 가능하게 할 수 있는가?
- RQ2DiracNet의 성능이 CIFAR-10/100 및 ImageNet에서 ResNet 및 Wide ResNet과 어떻게 비교되는가?
- RQ3Dirac 매개화가 초기화에 대한 민감도를 줄이고 테스트 시 간단한 convolution-ReLU 체로 접히도록 허용하는가?
- RQ4전통적인 잔차 네트워크와 비교하여 DiracNets에서 네트워크의 너비(width)와 깊이(depth)의 영향은 무엇인가?
주요 결과
- DiracNets는 매우 깊은 plain 네트워크(수백 층)의 학습을 가능하게 하며 경쟁력 있는 성능을 보인다.
- DiracNet-28-10은 CIFAR-10/100에서 36.5M 파라미터로 top-1 4.75% / top-5 21.54%를 달성하여 WRN-28-10에 근접한다.
- CIFAR에서 plain DiracNets는 다른 plain 네트워크들을 능가하고 ResNet/WRN 성능에 근접하며, 더 깊은 DiracNets는 plain 네트가 실패하는 곳에서 정확도를 향상시킨다.
- ImageNet에서 DiracNet-18/34는 비슷한 파라미터 수로 ResNet-18/34에 거의 근접한다.
- 이 프레임워크를 사용할 때 ResNet 유사 네트에 대한 신중한 초기화의 필요성을 제거한다.
- Dirac 매개화된 필터는 단일 가중치 벡터로 접혀 추론 시 간단한 VGG 유사한 conv-ReLU 블록 체를 얻을 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.