QUICK REVIEW

[논문 리뷰] Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang|arXiv (Cornell University)|2015. 12. 10.

Advanced Neural Network Applications참고 문헌 50인용 수 4,626

한 줄 요약

이 논문은 잔차 학습을 도입하여 항등 단축 경로(identity shortcut connections)를 통해 더 깊은 네트워크를 학습하도록 하고, ImageNet에서 최대 152층까지 가능하며 최첨단 성능을 달성하는 한편, 매우 깊은 일반 네트의 저하를 해결한다.

ABSTRACT

Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers---8x deeper than VGG nets but still having lower complexity. An ensemble of these residual nets achieves 3.57% error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task. We also present analysis on CIFAR-10 with 100 and 1000 layers. The depth of representations is of central importance for many visual recognition tasks. Solely due to our extremely deep representations, we obtain a 28% relative improvement on the COCO object detection dataset. Deep residual nets are foundations of our submissions to ILSVRC & COCO 2015 competitions, where we also won the 1st places on the tasks of ImageNet detection, ImageNet localization, COCO detection, and COCO segmentation.

연구 동기 및 목표

시각 인식에서 더 깊은 네트워크의 필요성을 동기 부여하고, 깊이가 증가할 때의 저하 문제를 식별한다.
입력을 기준으로 잔차 함수를 학습하도록 계층을 재구성하는 잔차 학습 프레임워크를 제안한다.
잔차 네트가 최적화가 더 쉽고 깊이가 증가할 때 이점이 있음을 다양한 데이터셋(ImageNet, CIFAR-10)에서 보여준다.
극도로 깊은 잔차 네트가 더 높은 정확도를 달성하고 탐지/추적(task)로 일반화되는 것을 보여준다(COCO, Pascal VOC).
매우 깊은 네트워크의 성공적인 학습을 가능하게 하는 실용적인 아키텍처와 학습 전략을 제공한다.

제안 방법

목표 매핑 H(x)를 잔차 F(x) = H(x) - x를 학습하는 방식으로 공식화하여 블록이 y = F(x) + x를 계산하도록 한다.
매개변수나 계산 비용을 추가하지 않고 정보를 전달하기 위해 단순한 덧셈을 수행하는 항등(shortcut) 연결을 도입한다.
비병목(non-bottleneck) 및 병목(bottleneck) 잔차 블록을 사용하고 18에서 152층까지의 깊이를 연구하는 순수 네트(net)와 잔차 네트(residual nets)를 포함한 네트워크 변형을 탐구한다.
순수 네트와 잔차 블록에서 3x3 컨볼루션 커널을 사용하고 차원이 바뀔 때는 항등 또는 프로젝션으로 구성된 shortcut 연결을 사용한다.
깊은 모델에서 계산 비용을 합리적으로 유지하면서 깊이를 늘리기 위해 병목 설계(1x1, 3x3, 1x1)를 채택한다.
ImageNet, CIFAR-10, COCO/Pascal VOC 벤치마크에서 SGD, 배치 정규화, 표준 이미지 증강으로 학습하고, top-1 및 top-5 오차(탐지에서의 mAP도 평가).

실험 결과

연구 질문

RQ1매우 깊은 일반 네트에서의 저하 문제가 최적화를 방해하는가, 잔차 학습이 이를 완화할 수 있는가?
RQ2더 깊은 잔차 네트워크(최대 152층)가 얕은 버전에 비해 ImageNet 및 CIFAR-10에서 정확도를 향상시킬 수 있는가?
RQ3동일한 학습 용이성과 성능 측면에서 항등 단축과 프로젝션 단축은 어떻게 비교되는가?
RQ4이미지 분류를 넘어 객체 탐지/분할(COCO, Pascal VOC) 작업에 극도로 깊은 잔차 네트가 일반화되는가?
RQ5깊이, 계산량, 정확도의 균형을 맞추는 실용적인 아키텍처 변형(순수 네트 대 잔차 네트, 병목 대 비병목)은 무엇인가?

주요 결과

깊은 순수 네트는 저하를 보인다: 더 깊은 네트워크는 더 높은 학습 오차와 더 나쁜 검증 성능을 가질 수 있다.
건너뛰기 연결이 있는 잔차 네트가 저하를 해결하고 깊이가 증가할수록 정확도가 높아진다(예: ResNet-34 vs. ResNet-18).
ImageNet에서 ResNet-50/101/152는 각각 상위 1% 오차 22.85%, 21.75%, 21.43%를 달성하고, 상위 5% 오차는 각각 6.71%, 6.05%, 5.71%이다(단일 모델 결과).
잔차 네트의 앙상블은 ImageNet 테스트 세트에서 3.57%의 top-5 오차를 달성해 ILSVRC 2015 분류에서 1위를 차지했다.
CIFAR-10에서 잔차 네트가 강력한 개선을 제공하며, ResNet-110은 6.43%(단일 실행에서 보고된 최상)이고 더 깊은 변형이 추가 개선을 달성했다.
COCO에서 VGG-16을 ResNet-101로 대체하면 탐지에서 눈에 띄는 이득(mAP 개선)을 얻어 다른 비전 작업에 대한 강력한 일반화를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.