QUICK REVIEW

[논문 리뷰] ExFuse: Enhancing Feature Fusion for Semantic Segmentation

Zhenli Zhang, Xiangyu Zhang|arXiv (Cornell University)|2018. 04. 11.

Advanced Neural Network Applications참고 문헌 31인용 수 54

한 줄 요약

ExFuse는 저수준 피처와 고수준 피처 사이의 의미적 차이와 해상도 차이를 연결하여 피처 융합을 향상시키고, 4%의 전반적 이득과 PASCAL VOC 2012에서 최첨단 결과를 달성합니다.

ABSTRACT

Modern semantic segmentation frameworks usually combine low-level and high-level features from pre-trained backbone convolutional models to boost performance. In this paper, we first point out that a simple fusion of low-level and high-level features could be less effective because of the gap in semantic levels and spatial resolution. We find that introducing semantic information into low-level features and high-resolution details into high-level features is more effective for the later fusion. Based on this observation, we propose a new framework, named ExFuse, to bridge the gap between low-level and high-level features thus significantly improve the segmentation quality by 4.0\% in total. Furthermore, we evaluate our approach on the challenging PASCAL VOC 2012 segmentation benchmark and achieve 87.9\% mean IoU, which outperforms the previous state-of-the-art results.

연구 동기 및 목표

저수준과 고수준 피처의 naive 융합이 의미적 격차와 해상도 격차로 인해 비효율적이라는 점을 동기 부여하고 분석한다.
저수준 피처에 의미 정보를 주입하고 고수준 피처에 공간 정보를 주입하는 기술을 개발한다.
이 격차를 연결하고 분할 성능을 향상시키는 프레임워크로서 ExFuse를 제안한다.
ABLATION 전반에 걸쳐 개선을 입증하고 PASCAL VOC 2012에서 최첨단 결과를 확립한다.

제안 방법

전체 용량을 바꾸지 않고도 저수준 피처를 의미 감독에 더 가깝게 만들기 위한 Layer rearrangement.
초기 인코더 단계에 보조 의미 가지를 연결하여 저수준 피처를 풍부하게 하는 의미 감독.
SEB를 통해 고수준 의미 지도를 잔차 융합에 융합하는 의미 임베딩 가지(semantic embedding branch).
ECRE(Explicit channel resolution embedding)으로 파라미터 없는 업샘플링(sub-pixel)을 사용해 고수준 피처에 해상도 높은 정보를 임베딩.
DAP(Dense adjac ent prediction)으로 채널을 그룹화하여 다중 위치 예측을 위한 공간 정보를 인접 픽셀에 전파.

실험 결과

연구 질문

RQ1저수준 피처와 고수준 피처 사이의 의미 격차 및 해상도 격차를 연결하면 U-Net 유사 의미 분할 구조에서 융합 효과를 향상시킬 수 있는가?
RQ2저수준 의미 강화와 고수준 공간 강화가 성능 향상에 각각 얼마나 기여하는가?
RQ3제안된 ExFuse 기법이 GCN 외의 vanilla U-Net 및 다른 비전 작업에 일반화되는가?
RQ4더 큰 백본과 COCO 사전훈련이 VOC 2012 결과에 미치는 영향은 무엇인가?
RQ5향상은 주로 융합 전략 때문인가, 아니면 백본 강화 때문인가?

주요 결과

ExFuse는 VOC 2012 검증에서 기본 GCN 설정 대비 총 4.0% mIoU 이득을 달성한다.
VOC 2012 테스트에서 ResNeXt-131을 사용한 ExFuse는 87.9% mIoU에 도달하여 비후처리 없이도 이전 최첨단 방법을 능가한다.
Layer rearrangement, semantic supervision, 및 SEB가 저수준 피처 품질에 점진적 이득을 각각 기여한다.
Sub-pixel 업샘플링을 이용한 ECRE가 0.5% mIoU 향상을 가져오며 명시적 고해상도 임베딩이 유익함을 보여준다.
DAP는 고수준 피처 채널에 공간 정보를 임베딩하여 0.6% mIoU 이득을 제공한다.
COCO 사전훈련 및 테스트 시 증강(flips)으로 ExFuse-131의 VOC 2012 검증은 85.8%에서, 테스트는 87.9% mIoU로 향상된다( baselines 대비 ).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.