[논문 리뷰] FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation
Joint Pyramid Upsampling (JPU)을 제안하여 백본의 무거운 dilated 합성곱을 대체하고, 고해상도 피처 추출을 공동 업샘플링 문제로 재정의함으로써 Pascal Context 및 ADE20K에서 빠른 추론과 최신 수준의 성능을 달성합니다.
Modern approaches for semantic segmentation usually employ dilated convolutions in the backbone to extract high-resolution feature maps, which brings heavy computation complexity and memory footprint. To replace the time and memory consuming dilated convolutions, we propose a novel joint upsampling module named Joint Pyramid Upsampling (JPU) by formulating the task of extracting high-resolution feature maps into a joint upsampling problem. With the proposed JPU, our method reduces the computation complexity by more than three times without performance loss. Experiments show that JPU is superior to other upsampling modules, which can be plugged into many existing approaches to reduce computation complexity and improve performance. By replacing dilated convolutions with the proposed JPU module, our method achieves the state-of-the-art performance in Pascal Context dataset (mIoU of 53.13%) and ADE20K dataset (final score of 0.5584) while running 3 times faster.
연구 동기 및 목표
- 딥러닝 기반의 의미적 분할에서 백본의 dilated 합성곱으로 인해 발생하는 계산량과 메모리 오버헤드를 줄이는 것을 동기부여한다.
- 고해상도 피처 맵 추출을 공동 업샘플링 문제로 재정의한다.
- 정확도를 보존하면서 추론 속도를 높이기 위해 Joint Pyramid Upsampling (JPU) 모듈을 도입·검증한다.
제안 방법
- 마지막 두 백본 단계에서 스트라이드 합성곱 및 일반 합성곱으로 바꿔 다중 수준 피처를 생성한다(Conv3–Conv5).
- Joint upsampling을 DilatedFCN의 최종 고해상도 피처 맵을 근사하는 CNN 기반 학습 문제로 정의한다.
- 병렬 분리 합성곱을 사용하여 1, 2, 4, 8의 dilation 비로 다중 수준 입력을 연결된 고해상도 피처 맵으로 매핑하는 JPU를 개발한다.
- Conv3–Conv5에서 업샘플링된 피처를 융합한 뒤 글로벌/컨텍스트 모듈(PSP/ASPP 또는 Encoding)로 최종 매핑을 적용하여 예측을 생성한다.
- 다양한 백본(ResNet-50/101)에서 bilinear, FPN 등 다양한 업샘플링 모듈을 대체하는 JPU의 능력을 입증한다.
- 정확도 유지 혹은 향상을 보이며 시간 및 메모리 측면에서 세 배의 효율 향상을 보인다.
실험 결과
연구 질문
- RQ1백본의 dilated 합성곱을 가벼운 업샘플링 모듈로 대체해 의미 분할 정확도가 손실되지 않는가?
- RQ2다중 수준 백본 피처를 활용한 공동 업샘플링 접근법이 전통적인 bilinear 업샘플링 및 FPN과 비교해 정확도와 속도 측면에서 어떤 차이가 있는가?
- RQ3JPU가 다양한 백본 네트워크 및 기존 컨텍스트 모듈(PSP/ASPP/Encoding)에서 일반화되어 표준 벤치마크에서 최신 성능을 달성하는가?
주요 결과
- JPU는 계산 및 메모리 사용을 크게 줄이면서(빠르게 3배 이상) 핵심 벤치마크에서 mIoU를 유지 또는 향상시킨다.
- ResNet-101을 사용하는 Pascal Context에서 EncNet+JPU가 53.1% mIoU(-val set)로 이전 방법들보다 우수하다.
- ADE20K에서 ResNet-50 조합은 val 세트에서 42.75% mIoU를, ResNet-101 조합은 test 세트에서 0.5584 최종 점수를 달성하여 경쟁력 있는 혹은 최첨단 성능을 시사한다.
- 다양한 EncNet, DeepLabV3 (ASPP), PSPNet 및 DeepLab 변형에서 dilated 합성곱을 JPU로 교체하면 성능이 일관되게 개선되거나 동일하게 유지된다.
- Abalation 분석에서 bilinear 업샘플링과 FPN이 PixAcc 및 mIoU 측면에서 JPU에 비해 열세를 보이며, 다층 피처 융합에서 JPU의 효율성을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.