[논문 리뷰] Improved Residual Networks for Image and Video Recognition
이 논문은 정보 흐름을 향상시키기 위해 단계별 빌딩 블록, 매개변수 없는 3x3 최대 풀링 투입 단서, 공간-채널 중심의 잔차 블록을 포함한 개선된 잔차 신경망 아키텍처인 ResMax를 제안한다. ImageNet, CIFAR-10, CIFAR-100에서 최신 기준 성능을 달성하며, 모델 복잡도가 증가하지 않도록 404층 및 3002층의 네트워크를 훈련시켰다. 이는 이전에 수렴한 적이 없는 가장 깊은 컨volutional 네트워크이다.
Residual networks (ResNets) represent a powerful type of convolutional neural network (CNN) architecture, widely adopted and used in various tasks. In this work we propose an improved version of ResNets. Our proposed improvements address all three main components of a ResNet: the flow of information through the network layers, the residual building block, and the projection shortcut. We are able to show consistent improvements in accuracy and learning convergence over the baseline. For instance, on ImageNet dataset, using the ResNet with 50 layers, for top-1 accuracy we can report a 1.19% improvement over the baseline in one setting and around 2% boost in another. Importantly, these improvements are obtained without increasing the model complexity. Our proposed approach allows us to train extremely deep networks, while the baseline shows severe optimization issues. We report results on three tasks over six datasets: image classification (ImageNet, CIFAR-10 and CIFAR-100), object detection (COCO) and video action recognition (Kinetics-400 and Something-Something-v2). In the deep learning era, we establish a new milestone for the depth of a CNN. We successfully train a 404-layer deep CNN on the ImageNet dataset and a 3002-layer network on CIFAR-10 and CIFAR-100, while the baseline is not able to converge at such extreme depths. Code is available at: https://github.com/iduta/iresnet
연구 동기 및 목표
- 잔차 학습에도 불구하고 매우 깊은 잔차 신경망 훈련에서 지속적인 최적화 곤란 문제를 해결하기 위해.
- 매우 깊은 네트워크에서 정보 전파 및 신호 감쇠의 한계를 극복하기 위해.
- 계산 효율성을 유지하면서도 공간 특징 학습 능력을 향상시키기 위해 잔차 블록 설계를 개선하기 위해.
- 추가 매개변수 없이도 정보 손실을 줄이고 성능을 향상시키는 더 효과적인 투입 단서를 개발하기 위해.
- 표준 비전 벤치마크에서 이전에 보지 못한 깊이(예: 3002층)의 네트워크 훈련을 가능하게 하기 위해.
제안 방법
- 각 단계에서 정보 흐름과 학습 효율성을 향상시키기 위해 전문화된 잔차 빌딩 블록을 사용하는 단계별 네트워크 아키텍처를 도입한다.
- 메인 컨볼루션과 동일한 공간 커널 크기를 갖는 3x3 최대 풀링 기반의 투입 단서를 제안하여 평균 풀링을 대체하고, 일관된 공간 정렬을 보장한다.
- 원래 ResNet 블록 대비 네 배 더 많은 공간 채널 용량을 갖춘 새로운 잔차 블록을 설계하여 강력한 공간 패턴 학습 능력을 향상시키지만, 매개변수 수와 FLOPs는 제어한다.
- 이를 다양한 데이터셋과 작업에 적용하여 이미지 분류, 객체 검출, 비디오 행동 인식을 포함한다.
- 학습률 감쇠와 배치 정규화를 포함한 통합된 훈련 프rotocol를 사용하며, 공정한 비교를 위해 ResNet과 동일한 깊이 스케일링을 유지한다.
- 이전 연구와 달리 첫 번째 단계에 투입 단서를 통합하여 네트워크 시작부터 일관된 신호 전파를 보장한다.
실험 결과
연구 질문
- RQ1잔차 블록과 단서 설계를 재고함으로써 매우 깊은 잔차 신경망에서 정보 흐름을 향상시킬 수 있는가?
- RQ23x3 최대 풀링 기반 투입 단서가 평균 풀링과 2x2 커널에 비해 정보 손실을 줄이고 정확도를 향상시키는 데 더 우수한가?
- RQ3잔차 블록의 공간 채널 용량을 증가시켜 모델 복잡도를 증가시키지 않으면서도 특징 표현 능력을 향상시킬 수 있는가?
- RQ4최소한 3002층의 매우 깊은 네트워크를 최적화 실패 없이 훈련시킬 수 있는 정도는 어느 정도이며, 어떤 아키텍처 변경이 이를 가능하게 하는가?
- RQ5제안된 아키텍처는 이미지 분류, 객체 검출, 비디오 인식을 포함한 다양한 비전 작업과 데이터셋으로 일반화되는가?
주요 결과
- 50층 네트워크로 ImageNet을 훈련한 결과, 기준 ResNet 대비 상위 1위 정확도가 1.19% 향상되었고, 다른 설정에서는 2% 향상되었다.
- 제안된 3x3 최대 풀링 기반 투입 단서는 ImageNet(50층)에서 상위 1위 오차를 22.85%로 줄였으며, 기준 ResNet(23.88%)와 논문 [8]의 방법(23.26%)을 모두 초월했다.
- 저자들은 ImageNet에서 404층의 CNN과 CIFAR-10, CIFAR-100에서 3002층의 네트워크를 성공적으로 훈련시켰다. 이는 이전에 수렴한 바가 없는 가장 깊은 네트워크이다.
- 개선된 잔차 블록은 매개변수 수와 FLOPs를 그대로 유지하면서도 공간 특징 학습 능력을 네 배로 향상시켰다.
- 이 방법은 다양한 작업으로 일반화된다: ImageNet, CIFAR-10/100에서의 이미지 분류, COCO에서의 객체 검출, Kinetics-400 및 Something-Something-v2에서의 비디오 행동 인식에서 뛰어난 성능을 달성한다.
- 극도로 깊은 깊이에서도 안정적인 훈련과 수렴을 유지하여, 매우 깊은 네트워크에서의 최적화 문제는 아키텍처 재설계를 통해 완화될 수 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.