Skip to main content
QUICK REVIEW

[논문 리뷰] ResNeSt: Split-Attention Networks

Hang Zhang, Chongruo Wu|arXiv (Cornell University)|2020. 04. 19.
Domain Adaptation and Few-Shot Learning인용 수 455
한 줄 요약

ResNeSt는 Split-Attention 블록을 도입하여 멀티-path 그룹 내에서 채널 단위 주의를 적용하고, 정확도-지연 시간의 우수한 균형을 달성하며 시각 작업 전반에서 강력한 전이 학습 결과를 제공합니다.

ABSTRACT

It is well known that featuremap attention and multi-path representation are important for visual recognition. In this paper, we present a modularized architecture, which applies the channel-wise attention on different network branches to leverage their success in capturing cross-feature interactions and learning diverse representations. Our design results in a simple and unified computation block, which can be parameterized using only a few variables. Our model, named ResNeSt, outperforms EfficientNet in accuracy and latency trade-off on image classification. In addition, ResNeSt has achieved superior transfer learning results on several public benchmarks serving as the backbone, and has been adopted by the winning entries of COCO-LVIS challenge. The source code for complete system and pretrained models are publicly available.

연구 동기 및 목표

  • CNN에서 다중 경로 아키텍처 내에서 채널 간 상호작용을 포착하여 특징 표현을 개선하려는 동기.
  • 표준 잔차 블록과 모듈식으로 교체 가능하고 효율적인 Split-Attention 블록을 개발한다.
  • ImageNet에서 최첨단 CNN 대비 정확도와 지연 시간의 트레이드오프를 개선하도록 입증한다.
  • ResNeSt 백본을 탐지, 분할 등 유사 작업에서 전이 학습 향상을 보여준다.

제안 방법

  • 특징 맵을 G개 그룹으로 분할하는 Split-Attention 블록을 정의한다( 기수 K, 분수 R, 총 그룹 G=KR ).
  • 각 기수 그룹 내에서 R개의 변환을 적용하고, 학습 가능한 채널 단위 주의 메커니즘으로 분할을 융합한 뒤 블록 출력을 형성하기 위해 연결한다.
  • shortcut 연결을 사용해 ResNeSt 블록을 구성하고 ResNet과 같은 아키텍처로 블록을 쌓는다.
  • 표준 CNN 연산자로 효율적인 계산을 가능하게 하는 radix-주요 및 기수-주요 구현을 제공한다.
  • 대형 미니배치 분산 학습, 코사인 학습률 스케줄, 라벨 스무딩, AutoAugment, Mixup, 더 큰 크롭 크기, DropBlock 정규화를 사용하여 학습한다.
  • ImageNet에서 최첨단 모델과 성능 비교를 수행하고 MS-COCO(탐지/분할) 및 ADE20K(의미론적 분할)에서 전이 학습을 평가한다.

실험 결과

연구 질문

  • RQ1Split-Attention을 다중 경로 그룹 내에서 적용하면 SE-Net 및 SK-Net을 넘어 특징 간 교차 상호작용과 표현 다양성을 향상시킬 수 있는가?
  • RQ2ResNeSt 변형이 NAS 최적화 모델에 비해 ImageNet과 같은 대규모 데이터셋에서 더 나은 속도-정확도 트레이드오프를 제공하는가?
  • RQ3ResNeSt 백본이 객체 탐지, 인스턴스 분할, 의미론적 분할과 같은 다운스트림 작업에서 일관된 이득을 제공하는가?

주요 결과

  • ResNeSt는 ImageNet에서 최첨단 CNN보다 정확도-지연 시간 트레이드오프가 우수하며, 예를 들어 ResNeSt-269는 비슷한 정확도에서 EfficientNet-B7보다 지연 시간이 더 낮다.
  • Split-Attention 블록은 백본으로 사용할 때 탐지, 인스턴스 분할, 의미론적 분할 전이 학습에서 향상을 제공한다.
  • 백본에서 ResNeSt-50/101은 탐지 및 분할 작업에서 ResNet-50/101보다 파라미터 수가 적은 경우에도 더 나은 성능을 보인다.
  • Mixup, AutoAugment, 그리고 더 큰 입력 크롭은 Split-Attention과 결합할 때 정확도 상승에 기여한다.
  • Radix 및 기수 설정은 radix를 0에서 4로 증가시키면 정확도는 향상되지만 지연 시간/메모리가 증가하는 경향이 있어 2s1x64d에서 실용적인 균형을 찾을 수 있다.
  • ResNeSt 백본은 일반적인 탐지/분할 프레임워크에서 ResNet의 효과적인 대체가 되었으며, ResNet 베이스라인 대비 뚜렷한 이익을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.