Skip to main content
QUICK REVIEW

[논문 리뷰] Aggregated Residual Transformations for Deep Neural Networks

Saining Xie, Ross Girshick|arXiv (Cornell University)|2016. 11. 16.
Adversarial Robustness in Machine Learning참고 문헌 40인용 수 385
한 줄 요약

본 논문은 모듈식 다지점(branch) 아키텍처인 ResNeXt를 소개한다. 이는 병렬 변환의 수를 늘려 표현 용량(카디널리티)을 증가시키되 깊이나 너비를 늘리지 않고 정확도를 향상시키며, ResNet 및 Inception 변형에 비해 ImageNet, ImageNet-5K, CIFAR, COCO에서 효과를 보임을 보인다.

ABSTRACT

We present a simple, highly modularized network architecture for image classification. Our network is constructed by repeating a building block that aggregates a set of transformations with the same topology. Our simple design results in a homogeneous, multi-branch architecture that has only a few hyper-parameters to set. This strategy exposes a new dimension, which we call "cardinality" (the size of the set of transformations), as an essential factor in addition to the dimensions of depth and width. On the ImageNet-1K dataset, we empirically show that even under the restricted condition of maintaining complexity, increasing cardinality is able to improve classification accuracy. Moreover, increasing cardinality is more effective than going deeper or wider when we increase the capacity. Our models, named ResNeXt, are the foundations of our entry to the ILSVRC 2016 classification task in which we secured 2nd place. We further investigate ResNeXt on an ImageNet-5K set and the COCO detection set, also showing better results than its ResNet counterpart. The code and models are publicly available online.

연구 동기 및 목표

  • CNN에서 카디널리티를 증가시키는 것이 표현 능력에 미치는 영향을 탐구하여 아키텍처 설계의 동기를 제시한다.
  • 변환된 임베딩을 집계하는 모듈식의 동질적 다분기(block)를 제안한다.
  • 유사한 복잡도에서 카디널리티를 증가시키는 것이 더 깊거나 넓은 네트워크를 능가할 수 있음을 보인다.
  • ImageNet, ImageNet-5K, CIFAR, COCO 데이터셋에서 ResNeXt의 효과를 입증한다.

제안 방법

  • 동일 토폴로지의 다수 변환을 합산으로 집계하는 모듈식 잔차 블록을 채택한다.
  • 블록에서 병렬 변환의 수를 카디널리티 C로 정의하고, C를 변화시키는 동안 너비/깊이를 고정한다.
  • 각 경로에 대해 매개변수 수와 FLOPs를 제어하기 위해 병목 모양의 변환을 사용한다.
  • 블록을 연결(concatenation)이나 그룹된 합성곱으로 등가적으로 재구성하여 서로 다른 구현을 설명한다.
  • 카디널리티를 변화시키면서도 전체 계산 복잡도를 보존하여 성능을 비교한다.
  • 다중 GPU 설정과 표준 데이터 증강을 사용하여 SGD로 학습하고, ResNeXt 블록을 구현하기 위해 그룹 합성곱으로 구현한다.

실험 결과

연구 질문

  • RQ1깊이와 너비를 대략 일정하게 유지한 채 카디널리티(병렬 변환 수)를 증가시키면 정확도가 향상되는가?
  • RQ2ImageNet에서 비슷한 계산 예산으로 ResNeXt와 ResNet 및 Inception 스타일 아키텍처를 비교하면?
  • RQ3더 높은 카디널리티로 인한 이익이 데이터 규모의 차이(ImageNet, ImageNet-5K)와 작업(분류, 탐지, CIFAR) 전반에 걸쳐 일관되는가?
  • RQ4최적화 및 표현 능력에서 잔차 연결과 집계된 변환의 역할은 무엇인가?

주요 결과

  • 유사한 복잡도에서 카디널리티를 증가시키면 기본 ResNet보다 검증 오차가 더 낮다.
  • ResNeXt-50에서 C를 32로, 4d bottleneck로 증가시키면 top-1 오차가 23.9%(ResNet-50)에서 22.2%로 감소한다.
  • ResNeXt-101 32×4d는 21.2%의 top-1 오차를 달성해 ResNet-101(22.0%)보다 우수하다.
  • 복잡도를 보존하면서 카디널리티를 증가시키는 것이 유사한 FLOPs에서 더 깊거나 넓은 구조보다 더 우수하다; 예를 들어 ResNeXt-101(32×4d)로 2× FLOPs일 때 ResNet-101보다 최대 약 1.3%의 top-1 향상을 보인다.
  • ImageNet-5K에서 ResNeXt-50은 5K-way top-1 오류를 ResNet-50보다 3.2% 감소시키고, ResNeXt-101은 ResNet-101보다 2.3% 감소시킨다.
  • ResNeXt는 복잡도 증가 없이 COCO 검출 AP 및 AP@IoU=0.5를 ResNet 계열보다 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.