[논문 리뷰] HS-ResNet: Hierarchical-Split Block on Convolutional Neural Network
HS-ResNet은 단일 잔차 블록 내에서 다중 스케일 특징 표현을 생성하는 plug-and-play Hierarchical-Split Block를 도입하여 이미지 분류, 객체 탐지, 인스턴스 분할, 시맨틱 분할 전반에서 성능을 향상시키되 매개변수와 대기 시간은 비슷하게 유지합니다.
This paper addresses representational block named Hierarchical-Split Block, which can be taken as a plug-and-play block to upgrade existing convolutional neural networks, improves model performance significantly in a network. Hierarchical-Split Block contains many hierarchical split and concatenate connections within one single residual block. We find multi-scale features is of great importance for numerous vision tasks. Moreover, Hierarchical-Split block is very flexible and efficient, which provides a large space of potential network architectures for different applications. In this work, we present a common backbone based on Hierarchical-Split block for tasks: image classification, object detection, instance segmentation and semantic image segmentation/parsing. Our approach shows significant improvements over all these core tasks in comparison with the baseline. As shown in Figure1, for image classification, our 50-layers network(HS-ResNet50) achieves 81.28% top-1 accuracy with competitive latency on ImageNet-1k dataset. It also outperforms most state-of-the-art models. The source code and models will be available on: https://github.com/PaddlePaddle/PaddleClas
연구 동기 및 목표
- 특징 맵에서 중복 정보를 최소화하는 효율적 블록의 설계를 제시한다.
- 기존 CNN 백본을 업그레이드하기 위한 플러그-앤-플레이 Hierarchical-Split 블록을 개발한다.
- 분류, 탐지, 인스턴스 분할, 시맨틱 분할 전반에 걸친 다중 작업 효과를 입증한다.
제안 방법
- 1x1 컨볼루션 후 특성 맵을 s개의 그룹으로 분할하는 Hierarchical-Split block를 제안한다.
- 각 그룹 내에서 3x3 컨볼루션을 적용하여 y_i를 생성한 다음, y_i를 y_{i,1}과 y_{i,2}로 분할한다. 여기서 y_{i,2}는 다음 그룹 x_{i+1}과 연결(concatenate)된다.
- 그룹들에 걸쳐 y_{i,1}을 연결(concatenate)해 채널 차원을 복구한 뒤 최종 1x1 컨볼루션으로 특징을 재구성한다.
- ResNet 병목에서 표준 3x3 컨볼루션을 Hierarchical-Split block으로 교체하되 매개변수 수와 비용은 비슷하게 유지한다.
- 특정 조건하에서 동일한 폭(w)과 그룹 수(s)를 갖는 kxk 컨볼루션보다 HS-ResNet이 적은 자원을 사용한다는 것을 보이도록 복잡도를 분석한다.
- ImageNet-1k 및 다운스트림 작업(COCO, Cityscapes)에서 학습하고 평가하여 개선을 입증한다.
실험 결과
연구 질문
- RQ1Hierarchical-Split block가 단일 잔차 블록 내에서 다중 스케일 표현을 생성할 수 있는가?
- RQ2표준 병목 컨볼루션을 Hierarchical-Split block으로 교체하면 매개변수나 지연 시간을 크게 늘리지 않으면서 이미지 분류, 객체 탐지, 인스턴스 분할, 시맨틱 분할 전반의 성능이 향상되는가?
- RQ3폭 w와 그룹 수 s가 정확도와 추론 속도에 어떤 영향을 미치는가?
- RQ4HS-ResNet이 표준 비전 벤치마크에서 최첨단 백본들과 경쟁력이 있거나 우수한가?
주요 결과
- HS-ResNet50은 ImageNet-1k에서 300회의 학습 에폭 및 데이터 증강으로 상위-1 정확도 81.28%를 달성했다.
- HS-ResNet50은 Faster R-CNN + FPN과 함께 COCO 객체 탐지 mAP를 37.2%(ResNet50)에서 41.6%로 향상시킨다.
- HS-ResNet50은 Mask R-CNN에서 2x 학습 스케줄로 바운딩 박스 mAP 43.1%, 시맨틱 분할 mAP 38.0%를 달성하여 ResNet50-D 및 Res2Net50을 능가한다.
- HS-ResNet50은 Deeplabv3+ 기준 Cityscapes에서 평균 IoU 79.8%를 달성하며 ResNet50-D보다 1.8% 포인트 향상시켰다.
- 변수 실험은 그룹 수 s가 증가하면 정확도가 향상되지만 순차 처리와 분할 연산으로 추론 속도가 느려질 수 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.