QUICK REVIEW

[논문 리뷰] Semantic Diffusion Network for Semantic Segmentation

Haoru Tan, Sitong Wu|arXiv (Cornell University)|2023. 02. 04.

Radiomics and Machine Learning in Medical Imaging인용 수 13

한 줄 요약

본 논문은 학습 가능한 시맨틱 확산 네트워크(SDN)를 도입하여 이질적(비등방성) 확산를 근사해 시맨틱 분할에서 클래스 간 경계를 강화하고, 추가 비용은 거의 들지 않으면서 경계 품질을 개선하고 플러그 앤 플레이 호환성을 제공합니다.

ABSTRACT

Precise and accurate predictions over boundary areas are essential for semantic segmentation. However, the commonly-used convolutional operators tend to smooth and blur local detail cues, making it difficult for deep models to generate accurate boundary predictions. In this paper, we introduce an operator-level approach to enhance semantic boundary awareness, so as to improve the prediction of the deep semantic segmentation model. Specifically, we first formulate the boundary feature enhancement as an anisotropic diffusion process. We then propose a novel learnable approach called semantic diffusion network (SDN) to approximate the diffusion process, which contains a parameterized semantic difference convolution operator followed by a feature fusion module. Our SDN aims to construct a differentiable mapping from the original feature to the inter-class boundary-enhanced feature. The proposed SDN is an efficient and flexible module that can be easily plugged into existing encoder-decoder segmentation models. Extensive experiments show that our approach can achieve consistent improvements over several typical and state-of-the-art segmentation baseline models on challenging public benchmarks. The code will be released soon.

연구 동기 및 목표

표준 합성곱에서 커널로 인한 흐림 문제를 다루기 위해 연산자 수준에서 경계 인식 향상을 촉진한다.
내부 클래스 노이즈를 억제하면서 클래스 간 경계를 강화하는 미분 가능하고 학습 가능한 확산 기반 모듈을 제안한다.
SDN이 다양한 세분화 백본에서 인코더와 디코더 사이의 네크로 쉽게 통합될 수 있음을 보여준다.
도전적인 벤치마크 전반에서 일관된 경계 품질과 mIoU 향상을 시연한다.

제안 방법

경계 강화를 의미론적 특징에 의해 가이드되는 비선형 비등방성 확산으로 수식화한다.
학습 가능한 커널과 시맨틱 유사도를 확산도(d diffusivity)로 결합하는 시맨틱 차이 합성 컨볼루션(SDC)을 도입한다.
연결 후 1x1 합성곱을 통해 SDN 출력을 원래 특징(U, Y)과 결합한다.
SDN을 인코더와 디코더 사이의 모듈형 네크로 내장하여 단일 스케일 및 다중 스케일 디코더와 호환되도록 한다.
인접 계층의 스케일별 시맨틱 가이던스 또는 상위 레이어의 다운샘플 복사본을 제공하여 SDN을 다중 스케일 백본으로 확장한다.

실험 결과

연구 질문

RQ1연산자 수준의 경계 인식 확산이 전체 성능 저하 없이 경계 정밀도를 향상시킬 수 있는가?
RQ2학습 가능한 확산 대리자(SDN)가 분할에서 기본 컨볼루션(Vanilla) 및 다른 경계 지향 연산자보다 우수한가?
RQ3SDN이 CNN과 트랜스포머를 포함한 다양한 백본과 디코더 구성에 대해 효율성을 유지하면서도 호환되는가?
RQ4후처리나 손실 기반 경계 방법과 비교했을 때 경계 품질 영향(F-score 1px/3px)은 얼마인가?

주요 결과

방법	인코더	ADE20K mIoU (단일 스케일)	Cityscapes mIoU (단일 스케일)	ADE20K mIoU (다중 스케일)	Cityscapes mIoU (다중 스케일)
FCN	ResNet-50	36.10	38.08	72.64	73.32
FCN+Ours	ResNet-50	38.12 (+2.02)	39.36 (+1.28)	74.75 (+2.11)	75.79 (+2.47)
SemanticFPN	ResNet-50	37.49	39.09	74.10	75.98
SemanticFPN+Ours	ResNet-50	38.79 (+1.30)	40.27 (+1.18)	75.97 (+1.87)	77.31 (+1.33)
Segmenter	ViT-B	48.48	50.00	77.97	80.07
Segmenter+Ours	ViT-B	51.05 (+2.57)	52.18 (+2.18)	79.42 (+1.45)	81.38 (+1.31)

SDN은 ADE20K 및 Cityscapes에서 CNN 기반 기준선의 mIoU를 일관되게 향상시킨다(예: FCN +2.02% s.s. 및 +2.11% mIoU, SemanticFPN +1.30% s.s. 및 +1.87% mIoU, Segmenter +2.57% s.s. 및 +1.45% mIoU).
SDN은 경계 품질 향상을 주목할 만하게 제공하며, Cityscapes에서 OCRNet에 비해 1px/3px F-score가 각각 +4.3, +1.5 증가했다.
SDN의 시맨틱 차이 합성 컨볼루션(SDC)은 경계 F-score에서 일반 컨볼루션(Vanilla 65.2) 및 중앙 차이 컨볼루션(CDC 60.1)을 상회하여 69.5를 기록했다.
SDC 커널 크기를 키우는 것은 효과가 제한적이며, 큰 확장은 성능에 해를 끼칠 수 있다; 3x3에 보통의 확장(1)을 사용하는 것이 효과적이다.
SDN은 여전히 호환되며 다른 경계 방법(DenseCRF, SegFix, InverseForm)과 결합했을 때 성능을 추가로 향상시킬 수 있다.
SDN은 비교적 낮은 계산 오버헤드로 경계 강화를 제공하며 단일 스케일 및 다중 스케일 디코더 모두에 플러그인될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.