[논문 리뷰] Wide Residual Networks
이 논문은 잔차 블록을 확장하는 WRNs가 매우 깊고 얇은 ResNets보다 우수할 수 있음을 보이며, CIFAR, SVHN, COCO, 및 ImageNet 전반에서 훨씬 적은 레이어와 빠른 학습으로 최첨단 결과를 달성한다.
Deep residual networks were shown to be able to scale up to thousands of layers and still have improving performance. However, each fraction of a percent of improved accuracy costs nearly doubling the number of layers, and so training very deep residual networks has a problem of diminishing feature reuse, which makes these networks very slow to train. To tackle these problems, in this paper we conduct a detailed experimental study on the architecture of ResNet blocks, based on which we propose a novel architecture where we decrease depth and increase width of residual networks. We call the resulting network structures wide residual networks (WRNs) and show that these are far superior over their commonly used thin and very deep counterparts. For example, we demonstrate that even a simple 16-layer-deep wide residual network outperforms in accuracy and efficiency all previous deep residual networks, including thousand-layer-deep networks, achieving new state-of-the-art results on CIFAR, SVHN, COCO, and significant improvements on ImageNet. Our code and models are available at https://github.com/szagoruyko/wide-residual-networks
연구 동기 및 목표
- 잔차 블록 아키텍처가 깊이를 넘어 성능에 어떻게 영향을 미치는지 조사한다.
- 블록 확장이 더 얇은 네트워크보다 정확도와 학습 효율을 향상시키는지 평가한다.
- 넓은 잔차 블록 내의 정규화 기법(dropout)을 탐구한다.
- WRNs를 사용하여 CIFAR, SVHN, COCO, 및 ImageNet에서 최첨단 결과를 시연한다.
제안 방법
- 확대 계수 k와 블록 깊이 l를 가진 깊은 잔차 네트워크를 정의한다.
- 최적 구조를 식별하기 위해 블록 유형과 구성(B(3,3), B(3,1,3) 등)을 비교한다.
- 대략 일정한 매개변수 수하에서 l과 k를 변화시켜 깊이 대 너비를 연구한다.
- 더 넓은 네트워크를 정규화하기 위해 잔차 블록 안에 dropout을 도입한다.
- 표준화된 훈련 프로토콜로 CIFAR-10/100, SVHN, ImageNet 및 COCO를 평가한다.
실험 결과
연구 질문
- RQ1잔차 블록 확장을 통해 ResNets의 깊이 증가보다 성능이 더 크게 향상될 수 있는가?
- RQ2고정된 매개변수 수 하에서 최상위 성능을 위한 블록 깊이 l와 확장 계수 k의 최적 조합은 무엇인가?
- RQ3잔차 블록 내부의 dropout이 넓은 네트워크에 대해 데이터셋 전반에 걸쳐 정규화 이점을 제공하는가?
- RQ4WRN은 CIFAR, SVHN, ImageNet, COCO에서 전통적인 얇은 ResNet과 비교하여 어떤 성능 차이를 보이는가?
주요 결과
| 깊이 | k | # 매개변수 | CIFAR-10 | CIFAR-100 |
|---|---|---|---|---|
| 40 | 1 | 0.6M | 6.85 | 30.89 |
| 40 | 2 | 2.2M | 5.33 | 26.04 |
| 40 | 4 | 8.9M | 4.97 | 22.89 |
| 40 | 8 | 35.7M | 4.66 | - |
| 28 | 10 | 36.5M | 4.17 | 20.50 |
| 28 | 12 | 52.5M | 4.33 | 20.43 |
| 22 | 8 | 17.2M | 4.38 | 21.22 |
| 22 | 10 | 26.8M | 4.44 | 20.75 |
| 16 | 8 | 11.0M | 4.81 | 22.07 |
| 16 | 10 | 17.1M | 4.56 | 21.59 |
- 폭이 증가함에 따라 잔차 네트워크의 성능이 지속적으로 향상되며, 매개변수 수가 유사한 경우에도 같은 경향을 보인다.
- CIFAR-10/100에서 WRN-40-4 및 WRN-28-10은 더 얇고 더 깊은 모델보다 적은 레이어와 더 빠른 학습으로 더 나은 성능을 보인다.
- ImageNet에서 ResNet-50을 WRN-50-2-병목으로 확장하면 레이어 수가 크게 줄면서도 정확도가 더 높다.
- 잔차 블록 내부의 dropout은 CIFAR 및 SVHN에서 테스트 오차를 실질적으로 감소시키고 너비 기반 이점을 보완한다.
- WRN 아키텍처는 CIFAR-10, CIFAR-100, SVHN, COCO에서 최첨단 결과를 달성하고 ImageNet에서도 빠른 학습 시간으로 경쟁력 있는 결과를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.