QUICK REVIEW

[논문 리뷰] Scaling Wide Residual Networks for Panoptic Segmentation

Liang-Chieh Chen, Huiyu Wang|arXiv (Cornell University)|2020. 11. 23.

Advanced Neural Network Applications참고 문헌 107인용 수 28

한 줄 요약

이 논문은 넓이(채널 수)와 깊이(층 수)를 격자 탐색을 통해 조정함으로써 페노틱 세그멘테이션을 위한 스케일러블한 와이드 리서널 네트워크(SWideRNet)의 가족을 제안한다. 수정된 와이드-레즈넷 기반 모델에 스위치 압축 컨볼루션과 스위치 압축 컨볼루션을 통합함으로써 COCO, 시티스케이프스, ADE20K에서 최신 기술 수준의 속도-정확도 트레이드오프를 달성한다. 빠른 버전은 유사한 추론 속도에서 MobileNetV3보다 최소 3% 이상 높은 PQ 성능을 보이며, 강력한 버전은 여러 벤치마크에서 Axial-DeepLab를 능가한다.

ABSTRACT

The Wide Residual Networks (Wide-ResNets), a shallow but wide model variant of the Residual Networks (ResNets) by stacking a small number of residual blocks with large channel sizes, have demonstrated outstanding performance on multiple dense prediction tasks. However, since proposed, the Wide-ResNet architecture has barely evolved over the years. In this work, we revisit its architecture design for the recent challenging panoptic segmentation task, which aims to unify semantic segmentation and instance segmentation. A baseline model is obtained by incorporating the simple and effective Squeeze-and-Excitation and Switchable Atrous Convolution to the Wide-ResNets. Its network capacity is further scaled up or down by adjusting the width (i.e., channel size) and depth (i.e., number of layers), resulting in a family of SWideRNets (short for Scaling Wide Residual Networks). We demonstrate that such a simple scaling scheme, coupled with grid search, identifies several SWideRNets that significantly advance state-of-the-art performance on panoptic segmentation datasets in both the fast model regime and strong model regime.

연구 동기 및 목표

페노틱 세그멘테이션이라는 도전적인 과제를 위해 와이드 리서널 네트워크(Wide-ResNets)의 아키텍처를 재검토하고 향상시키기.
2016년 이후 와이드 리서널 네트워크 설계의 정체를 해결하기 위해 넓이와 깊이에 대한 체계적인 스케일링 전략을 도입하기.
특히 실시간 추론 환경에서 뛰어난 속도-정확도 트레이드오프를 달성하기.
넓이와 깊이 요인에 대한 격자 탐색을 통해 실험적으로 최적의 네트워크 구성 요건을 규명하여 이전 최신 기술 수준의 모델들을 초월하기.

제안 방법

와이드 리서널 네트워크 기반 모델의 넓이($w_1$, $w_2$)와 깊이($ε$)를 스케일링하여 유도된 SWideRNet-$(w_1, w_2, ε)$ 모델 가족을 제안.
표현 능력 향상과 맥락 모델링 향상을 위해 스위치 압축 컨볼루션(Squeeze-and-Excitation, SE)과 스위치 압축 컨볼루션(Switchable Atrous Convolution, SAC) 모듈을 도입.
모델 용량에 대한 효율적인 격자 탐색을 가능하게 하기 위해 스케일링 요인 $w_1$, $w_2$, $ε$에 대해 이산화된 탐색 공간을 사용.
최고의 성능을 보이는 SWideRNet 버전을 패노픽-딥랩 프레임워크의 백본으로 배치하여 엔드 투 엔드 학습 및 평가를 수행.
FLOPs가 속도-정확도 트레이드오프 평가에 부적절한 추정치임을 고려하여, 속도-정확도 트레이드오프 평가에 실제 GPU 추론 시간 측정을 활용.
특히 첫 번째 및 두 번째 스테이지가 속도 저하 요인임을 규명하기 위해 스케일링 요인의 영향을 성능과 추론 속도에 대해 분석하는 아블레이션 스터디를 수행.

실험 결과

연구 질문

RQ1와이드 리서널 네트워크의 넓이와 깊이를 체계적으로 스케일링하면 페노틱 세그멘테이션 벤치마크 성능 향상에 기여할 수 있는가?
RQ2스위치 압축 컨볼루션과 스위치 압축 컨볼루션의 통합이 밀도 예측 과제에서 와이드 리서널 네트워크 성능 향상에 기여하는가?
RQ3SWideRNet의 속도-정확도 트레이드오프는 이전 최신 기술 수준의 모델들보다 뛰어나며, 특히 실시간 추론 환경에서 그러한가?
RQ4강력한 모델 환경에서 네트워크 성능 향상을 위해 넓이 증가, 깊이 증가, 또는 양자 모두를 통한 스케일링 중 어느 것이 가장 효율적인가?
RQ5왜 가장 빠른 SWideRNet 버전들이 모두 동일한 $w_1 = 0.25$ 요인을 공유하는가? 이는 아키텍처적 병목 현상에 대해 무엇을 암시하는가?

주요 결과

가장 빠른 SWideRNet 버전들, 예를 들어 SWideRNet-(0.25, 0.35, 1)은 COCO에서 유사한 추론 속도에서 MobileNetV3보다 최소 3% 이상 높은 PQ 성능을 달성한다.
SWideRNet-(1, 1, 4.5) 모델은 시티스케이프스에서 68.5% PQ 성능을 기록하며, Axial-DeepLab-XL을 포함한 이전 최신 기술 수준의 모델들을 능가한다.
맵릴리 밸리스타스에서는 단일 SWideRNet 모델이 앙상블 모델을 능가하며, 다중 스케일 입력을 사용할 경우 44.8% PQ와 60.0% mIoU 성능을 기록한다.
ADE20K에서는 SWideRNet-(1, 1.5, 3) 모델이 다중 스케일 입력을 사용해 37.86% PQ 성능을 기록하며, 이전 단일 모델 기반 베이스라인을 능가한다.
탐색 결과에 따르면 강력한 모델 환경에서 네트워크 용량을 증가시키는 데 있어 깊이($ε$)를 증가시키는 것이 가장 효율적인 방법임을 확인하였으며, 이는 와이드 리서널 네트워크가 이미 충분히 넓다는 것을 시사한다.
첫 번째 및 두 번째 스테이지가 주요 속도 병목 요소로 규명되었으며, 모든 빠른 모델이 $w_1 = 0.25$를 사용함으로써 계산 분포의 아키텍처적 비대칭성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.