Skip to main content
QUICK REVIEW

[논문 리뷰] FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction

Shuyang Sun, Jiangmiao Pang|arXiv (Cornell University)|2019. 01. 11.
Water Quality Monitoring Technologies참고 문헌 34인용 수 62
한 줄 요약

FishNet은 이미지, 영역, 픽셀 수준 예측을 통합하기 위해 여러 해상도에서 특징을 보존하고 정제하는 백본 네트워크로, 직접 그래디언트 전파를 가능하게 하고 경쟁력 있는 파라미터 수로 성능을 향상시킵니다. ResNet/DenseNet 대비 ImageNet 분류 정확도에서 우수하며 백본으로 사용할 경우 COCO 탐지/세분화에서 뚜렷한 이점을 제공합니다.

ABSTRACT

The basic principles in designing convolutional neural network (CNN) structures for predicting objects on different levels, e.g., image-level, region-level, and pixel-level are diverging. Generally, network structures designed specifically for image classification are directly used as default backbone structure for other tasks including detection and segmentation, but there is seldom backbone structure designed under the consideration of unifying the advantages of networks designed for pixel-level or region-level predicting tasks, which may require very deep features with high resolution. Towards this goal, we design a fish-like network, called FishNet. In FishNet, the information of all resolutions is preserved and refined for the final task. Besides, we observe that existing works still cannot \emph{directly} propagate the gradient information from deep layers to shallow layers. Our design can better handle this problem. Extensive experiments have been conducted to demonstrate the remarkable performance of the FishNet. In particular, on ImageNet-1k, the accuracy of FishNet is able to surpass the performance of DenseNet and ResNet with fewer parameters. FishNet was applied as one of the modules in the winning entry of the COCO Detection 2018 challenge. The code is available at https://github.com/kevin-ssy/FishNet.

연구 동기 및 목표

  • 이미지, 영역 및 픽셀 수준 작업을 위해 고해상도이고 고수준 의미론적 특징을 활용하는 통합 백본의 동기를 부여한다.
  • 꼬리(깊은 특징), 몸체(상향 샘플링/정제), 머리(하향 샘플링/정제) 전반에 걸쳐 특징을 보존하고 다듬어 직접 역전파를 가능하게 하는 물고기 형태의 아키텍처를 설계한다.
  • 고립된 합성곱을 피하고 해상도 간 연결을 연결(concatenation) 기반으로 가능하게 하여 그래디언트 전파를 개선한다.
  • FishNet이 유사한 파라미터 수를 가진 이미지 분류 백본보다 더 나은 성능을 내고 지역/픽셀 수준 작업 성능을 향상시킬 수 있음을 입증한다.

제안 방법

  • Tail(다운샘플링 백본), Body(수평 연결을 포함한 업샘플링/정제), Head(다중 해상도 특징을 보존하기 위한 연결을 통한 다운샘플링/정제로 구성된 세 부분의 FishNet을 제안한다.
  • Up-sampling & Refinement 블록(UR-blocks)을 사용하여 tail과 body 특징을 융합하고 합성곱으로 정제하며, 특징 너비를 관리하기 위해 채널 단위 감소 비율 r를 사용한다(식 8).
  • Head에서 Down-sampling & Refinement 블록(DR-blocks)을 사용하여 다단계 특징을 아래로 전파하고 그래디언트 흐름을 보존한다(헤드에 고립된 합성곱(no isolated) 없음).
  • 중요한 전이에서 고립된 합성곱(I-conv)을 피해 깊은 층에서 얕은 층으로의 직접 그래디언트 전파를 유지한다.
  • 최근접 이웃 업샘플링 및 2x2 다운샘플링을 채택하고, 해상도 선명도를 유지하기 위해 body에서 선택적으로 확장 합성곱(dilated convolutions)을 사용한다.
  • ResNeXt와 같은 그룹화를 통합하여 FishNet, FishNeXt와 같은 아키텍처 변형을 제공하고 파라미터 정확도 비교를 입증한다.

실험 결과

연구 질문

  • RQ1단일 백본 아키텍처가 이미지-, 영역-, 픽셀 수준 네트워크의 이점을 하나로 통합할 수 있는가?
  • RQ2직접 그래디언트 전파로 다중 해상도 특징을 보존하고 다듬는 것이 ResNet/DenseNet과 유사한 파라미터 수에서 성능을 향상시키는가?
  • RQ3백본으로 사용될 때 업샘플링/다운샘플링 정제가 ImageNet 및 COCO 작업에서 성능에 어떤 영향을 미치는가?
  • RQ4고립된 합성곱(I-conv)을 피하는 것이 그래디언트 흐름과 최종 정확도에 미치는 영향은 무엇인가?

주요 결과

BackboneAP_s (seg)AP_S^s (seg)AP_M^s (seg)AP_L^s (seg)AP_d (seg)AP_S^d (seg)AP_M^d (seg)AP_L^d (seg)AP_s (det)AP_S^s (det)AP_M^s (det)AP_L^s (det)AP_d (det)AP_S^d (det)AP_M^d (det)AP_L^d (det)
ResNet-5034.515.637.152.138.622.241.550.837.921.541.149.9???
ResNet-50 †34.718.537.447.738.722.342.051.238.021.441.650.1???
ResNeXt-50 (32x4d) †35.719.138.548.540.023.143.052.839.323.242.351.7???
FishNet-15037.019.840.250.341.524.144.955.040.623.343.953.7???
vs. ResNet-50 †+2.3+1.3+2.8+2.6+2.8+1.8+2.9+3.8+2.6+1.9+2.3+3.6???
vs. ResNeXt-50 †+1.3+0.7+1.7+1.8+1.5+1.0+1.9+2.2+1.3+0.1+1.6+2.0???
  • On ImageNet-1k, FishNet-150 (≈ ResNet-50 parameter count) surpasses ResNet-101 and DenseNet with better accuracy and lower FLOPs.
  • FishNet-150 outperforms ResNet-50 and ResNeXt-50 with similar parameter budgets across single-crop evaluation.
  • When used as backbones for MS COCO, FishNet-150 improves Mask R-CNN and FPN-based detections by approximately 2.3–2.8 AP points over ResNet-50/ResNeXt-50 baselines.
  • FishNet variants achieved competitive or superior accuracy with fewer parameters than DenseNet and ResNet baselines and enabled effective region- and pixel-level predictions.
  • COCO 2018 winning entry used FishNet as a backbone component, contributing to strong instance segmentation results.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.