QUICK REVIEW

[논문 리뷰] DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation

Hanchao Li, Pengfei Xiong|arXiv (Cornell University)|2019. 04. 03.

Advanced Neural Network Applications참고 문헌 35인용 수 57

한 줄 요약

DFANet은 하위 네트워크 및 하위 스테이지 캐스케이드를 통한 깊은 특징 융합을 도입하여 고해상도에서 실시간 의미론적 분할을 가능하게 하며 FLOPs를 대폭 줄이고 경쟁력 있는 정확도를 제공합니다.

ABSTRACT

This paper introduces an extremely efficient CNN architecture named DFANet for semantic segmentation under resource constraints. Our proposed network starts from a single lightweight backbone and aggregates discriminative features through sub-network and sub-stage cascade respectively. Based on the multi-scale feature propagation, DFANet substantially reduces the number of parameters, but still obtains sufficient receptive field and enhances the model learning ability, which strikes a balance between the speed and segmentation performance. Experiments on Cityscapes and CamVid datasets demonstrate the superior performance of DFANet with 8$ imes$ less FLOPs and 2$ imes$ faster than the existing state-of-the-art real-time semantic segmentation methods while providing comparable accuracy. Specifically, it achieves 70.3\% Mean IOU on the Cityscapes test dataset with only 1.7 GFLOPs and a speed of 160 FPS on one NVIDIA Titan X card, and 71.3\% Mean IOU with 3.4 GFLOPs while inferring on a higher resolution image.

연구 동기 및 목표

고해상도 이미지에서 제한된 계산으로 실시간 의미론적 분할의 도전을 해결한다.
다중 스케일 맥락과 공간적 디테일을 융합하는 경량이지만 식별력이 있는 특징 융합 메커니즘을 개발한다.
고수준 특징 재사용 및 스테이지와 네트워크 전반에 걸친 특징 융합으로 추론 속도와 정확도를 균형 있게 달성한다.
다 cascaded 다중 백본 설계가 기존 실시간 방법보다 속도 면에서 우수하면서도 경쟁력 있는 mIoU를 유지함을 입증한다.

제안 방법

Depthwise separable convolutions를 기반으로 한 경량 백본(A) 사용.
하위 네트워크 융합: 하나의 백본 출력이 다음 백본으로 feed되어 고수준 특징을 다듬는다.
하위 스테이지 융합: 백본 간 대응하는 스테이지의 특징을 융합하여 공간적 디테일과 맥락을 보존한다.
백본 끝에 FC-주의 모듈을 부착하여 최소한의 계산으로 수용영역을 확장한다.
상위-하위 특징을 업샘플링과 간단한 합성곱을 통해 융합하는 경량 디코더를 사용한다.
표준 교차 엔트로피 손실과 데이터 증강으로 학습하고, poly 학습률 정책을 사용하는 SGD를 이용한다.

실험 결과

연구 질문

RQ1네트워크 레벨과 스테이지 간의 깊은 특징 융합이 실시간 제약 하에서 분할 정확도를 향상시킬 수 있는가?
RQ2경량 백본을 다중로 스택하고 스테이지 수준 융합이 정확도와 FLOPs에 미치는 영향은 무엇인가?
RQ3Cityscapes와 CamVid에서 DFANet이 속도와 정확도 측면에서 최신의 실시간 분할 방법과 어떻게 비교되는가?
RQ4의미론적 분할을 위한 경량 백본에서 FC 주의가 차지하는 역할은 무엇인가?
RQ5입력 해상도, 백본 복잡성, 전반적 성능 간의 트레이드오프는 어떻게 되는가?

주요 결과

DFANet은 Cityscapes 검증에서 Backbone A x3+HL+LL 구성을 사용하여 3.4 GFLOPs에서 71.9% mIoU를 달성하고 Backbone B x3+HL+LL 구성에서 2.1 GFLOPs로 68.4% mIoU를 달성한다.
Cityscapes 테스트에서 DFANet A는 3.4 GFLOPs와 100 FPS로 71.3% mIoU에 도달하고, DFANet A’는 1.7 GFLOPs와 160 FPS로 70.3% mIoU를 달성한다.
이전의 실시간 방법과 비교할 때 DFANet은 FLOPs가 최대 8배 작고 속도는 최대 2배 빠르면서도 경쟁력 있는 정확도를 유지한다.
대다수의 Cityscapes 실시간 기준선보다 DFANet은 훨씬 적은 FLOPs(예: 1.7G–3.4G FLOPs 변형에서 70–71% mIoU)로 우수한 성능을 보인다.
CamVid 결과에서 DFANet A는 120 FPS, DFANet B는 160 FPS에서 높은 해상도 영상 프레임에 대해 경쟁력 있는 mIoU를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.