[논문 리뷰] Hierarchical Dense Correlation Distillation for Few-Shot Segmentation
HDMNet은 피셀 수준의 소샷 분할을 개선하기 위해 상관 맵 증류를 갖춘 계층적으로 분리된 매칭 네트워크를 도입하여 COCO-20i와 Pascal-5i에서 최첨단 성능을 달성합니다.
Few-shot semantic segmentation (FSS) aims to form class-agnostic models segmenting unseen classes with only a handful of annotations. Previous methods limited to the semantic feature and prototype representation suffer from coarse segmentation granularity and train-set overfitting. In this work, we design Hierarchically Decoupled Matching Network (HDMNet) mining pixel-level support correlation based on the transformer architecture. The self-attention modules are used to assist in establishing hierarchical dense features, as a means to accomplish the cascade matching between query and support features. Moreover, we propose a matching module to reduce train-set overfitting and introduce correlation distillation leveraging semantic correspondence from coarse resolution to boost fine-grained segmentation. Our method performs decently in experiments. We achieve $50.0\%$ mIoU on \coco~dataset one-shot setting and $56.0\%$ on five-shot segmentation, respectively.
연구 동기 및 목표
- 적은 주석으로도 보이지 않는 클래스에 일반화되는 강인한 소샷 의미론적 분할을 동기화한다.
- 프로토타입 기반 및 조기 매칭 기반 방법에서의 거친 분할 및 학습 세트 과적합을 극복한다.
- 피처 파싱을 밀집 픽셀 수준 매칭과 분리시키는 계층적으로 분리된 매칭 아키텍처를 제안한다.
- 다중 스케일에서 의미적 단서를 전이하기 위한 상관 기반 매칭 모듈과 다층 상관 맵 증류를 도입한다.
제안 방법
- 계층적 파싱과 분리된 매칭 모듈로 트랜스포머 아키텍처를 확장하여 캐스케이드, 픽셀 수준 대응을 가능하게 한다.
- 코사인 유사도와 역소프트맥스를 사용하는 상관 메커니즘을 통해 픽셀 수준의 상관을 계산하여 클래스별 특징 의존성을 줄인다.
- 사전 마스크와 간단한 디코더를 도입해 다중 스케일로 보강된 특징을 거칠게부터 미세하게 융합한다.
- KL 발산을 이용해 인접한 상관 맵 간의 정보를 활용하여 더 깊은 단계의 맥락 의미를 얕은 단계로 전달하는 상관 맵 증류를 적용한다.
- 채널 차원에서 다중 샷 지원 특징과 마스크를 연결하여 디코더 파이프라인을 보존하며 1-shot에서 K-shot으로 확장한다.
실험 결과
연구 질문
- RQ1피처 파싱과 매칭의 계층적 분리가 소샷 분할에서의 강건성 및 일반화를 어떻게 개선할 수 있는가?
- RQ2상관 기반 매칭이 트랜스포머의 전통적 크로스-어텐션 기반 매칭보다 학습 세트 과적합을 더 잘 완화할 수 있는가?
- RQ3상관 맵 증류가 고수준 의미 단서를 얕은 계층으로 효과적으로 전달하여 미세한 분할을 개선하는가?
- RQ4HDMNet은 표준 FSS 벤치마크(COCO-20i, Pascal-5i)에서 1-shot 및 5-shot 설정으로 어떤 성능을 보이는가?
- RQ5핵심 매칭 패러다임을 바꾸지 않고도 다샷(K-shot) 시나리오로 프레임워크를 효율적으로 확장할 수 있는가?
주요 결과
- HDMNet은 COCO-20i에서 mIoU가 최첨단 수준이고(1-shot: 50.0, 5-shot: 56.0), Pascal-5i에서도(1-shot: 69.4-71.8 대 folds, 5-shot: 71.3-77.7 대 folds) ResNet-50 및 VGG-16 백본으로 최첨단 성능을 달성한다.
- decoupled downsampling/matching 설계는 노이즈 간섭을 줄이고 스택된 자기- 및 교차-어텐션 대비 일반화를 개선한다.
- 역소프트맥스와 사전 마스크를 갖춘 상관 기반 매칭 모듈이 전통적 크로스-어텐션보다 더 나은 정렬을 보여준다.
- 상관 맵 증류는 더 깊은 단계에서 얕은 단계로 맥락 정보를 전달하여 검증 성능을 높이고 현저한 이점을 제공한다.
- 다중 지원 특징과 마스크를 연결하는 방식으로 K-shot으로 확장하는 것이 간단하며 디코더 파이프라인을 보존한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.