[논문 리뷰] Wider or Deeper: Revisiting the ResNet Model for Visual Recognition
이 논문은 ResNets를 얕은 서브네트워크의 선형적으로 증가하는 앙상블로 재해석하고, 더 얕고 넓은 잔차 아키텍처를 제안하여 ImageNet에서 훨씬 더 깊은 모델을 능가하며, 의미 분할 태스크로의 강한 전이를 시연한다.
The trend towards increasingly deep neural networks has been driven by a general observation that increasing depth increases the performance of a network. Recently, however, evidence has been amassing that simply increasing depth may not be the best way to increase performance, particularly given other limitations. Investigations into deep residual networks have also suggested that they may not in fact be operating as a single deep network, but rather as an ensemble of many relatively shallow networks. We examine these issues, and in doing so arrive at a new interpretation of the unravelled view of deep residual networks which explains some of the behaviours that have been observed experimentally. As a result, we are able to derive a new, shallower, architecture of residual networks which significantly outperforms much deeper models such as ResNet-200 on the ImageNet classification dataset. We also show that this performance is transferable to other problem domains by developing a semantic segmentation approach which outperforms the state-of-the-art by a remarkable margin on datasets including PASCAL VOC, PASCAL Context, and Cityscapes. The architecture that we propose thus outperforms its comparators, including very deep ResNets, and yet is more efficient in memory use and sometimes also in training time. The code and models are available at https://github.com/itijyou/ademxapp
연구 동기 및 목표
- 깊은 잔차 네트워크의 해석된 관점과 유효 깊이를 설명한다.
- 더 얕고 넓은 잔차 아키텍처를 제안하고 평가하여 더 깊은 상대 모델을 능가하는지 확인한다.
- 제안된 아키텍처의 의미 분할 벤치마크로의 전이 가능성을 시연한다.
- 제안된 네트워크의 메모리 사용량과 학습 효율성을 매우 깊은 ResNets에 비해 평가한다.
제안 방법
- shortcut 연결이 있는 잔차 유닛에 대한 해석된 유효 깊이 분석을 제공한다.
- 잔차 유닛당 2개의 3x3 컨볼루션과 선택적 병목을 갖는 비교적 얕은 네트워크 계열을 설계한다.
- ImageNet에서 심층 ResNets 및 Inception 계열과의 top-1/top-5 정확도 및 처리량을 비교하기 위해 평가한다.
- 다중 스케일 감독 없이 다운샘플링, dilation, 및 분류기 구조를 수정하여 의미 분할에 맞게 분류 네트워크를 적응시킨다.
- 다중 GPU 설정에서 MXNet을 사용하여 학습 및 미세 조정하고 메모리 사용량과 학습 속도를 보고한다.
실험 결과
연구 질문
- RQ1잔차 네트워크가 얕은 서브네트워크의 지수적 앙상블로 작동하는가, 아니면 선형적으로 증가하는 앙상블로 작동하는가?
- RQ2얕고 넓은 잔차 아키텍처가 메모리 효율적이면서도 ImageNet에서 더 깊은 ResNets를 능가할 수 있는가?
- RQ3제안된 아키텍처가 heavy post-processing 없이 PASCAL VOC, Cityscapes, ADE20K 등의 의미 분할 벤치마크로 얼마나 잘 전이되는가?
주요 결과
| 방법 | 깊이 | 트. 입력 | top-1 | top-5 | 속도 |
|---|---|---|---|---|---|
| VGG16 [28] | 16 | 224 | 28.1 | 9.3 | – |
| ResNet-50 [12] | 50 | 224 | 23.5 | 6.8 | 75.2 |
| ResNet-101 [12] | 101 | 224 | 22.1 | 6.1 | 56.8 |
| ResNet-152 [12] | 152 | 224 | 21.8 | 5.8 | 41.8 |
| ResNet-152 [13] | 152 | 224 | 21.3 | 5.5 | – |
| ResNet-200 [13] | 200 | 224 | 20.7 | 5.3 | – |
| Inception-v4 [30] | 76 | 299 | 20.0 | 5.0 | – |
| Inception-ResNet-v2 [30] | 96 | 299 | 19.9 | 4.9 | – |
| 56-1-1-1-1-9-1-1, Model F | 34 | 56 | 25.2 | 7.8 | 113.5 |
| 112-1-1-1-1-5-1-1, Model E | 26 | 112 | 22.3 | 6.2 | 97.3 |
| 112-1-1-1-1-9-1-1, Model D | 34 | 112 | 22.1 | 6.0 | 81.2 |
| 112-1-1-1-1-13-1-1, Model C | 42 | 112 | 21.8 | 5.9 | 69.2 |
| 224-0-1-1-1-1-1-1, Model B | 20 | 224 | 21.0 | 5.5 | 43.3 |
| 224-0-3-3-6-3-1-1, Model A | 38 | 224 | 19.2 | 4.7 | 15.7 |
- 얕고 넓은 잔차 아키텍처는 ImageNet에서 top-1/top-5 정확도 측면에서 매우 깊은 ResNets(예: ResNet-152, ResNet-200)을 능가할 수 있다.
- 약 17개의 잔차 유닛으로 구성된 네트워크가 더 깊은 모델을 능가하면서 더 많은 메모리 효율을 보인다.
- 제안된 네트워크의 특징을 이용한 의미 분할은 다중 스케일이나 CRF 후처리 없이 PASCAL VOC, Cityscapes, ADE20K에서 일류 수준의 결과를 달성한다.
- 입력 크기 및 다운샘플링 전략에 따라 얕은 아키텍처에서 메모리 사용량과 학습 속도가 향상될 수 있다.
- 성능은 적절한 깊이 설계와 지나치게 깊게 하지 않는 것에 상관관계가 있으며, 엔드-투-엔드 학습 가능성을 높이는 너비 대 깊이의 트레이드오프를 지지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.