Skip to main content
QUICK REVIEW

[논문 리뷰] Hypercorrelation Squeeze for Few-Shot Segmentation

Juhong Min, Dahyun Kang|arXiv (Cornell University)|2021. 04. 04.
Advanced Neural Network Applications참고 문헌 81인용 수 55
한 줄 요약

HSNet은 표준 벤치마크에서 다중 레벨 특성 상관관계와 center-pivot 4D 컨볼루션을 융합하여few-shot 의미 분할에서 최첨단 성능을 달성하는 Hypercorrelation Squeeze Networks를 도입합니다.

ABSTRACT

Few-shot semantic segmentation aims at learning to segment a target object from a query image using only a few annotated support images of the target class. This challenging task requires to understand diverse levels of visual cues and analyze fine-grained correspondence relations between the query and the support images. To address the problem, we propose Hypercorrelation Squeeze Networks (HSNet) that leverages multi-level feature correlation and efficient 4D convolutions. It extracts diverse features from different levels of intermediate convolutional layers and constructs a collection of 4D correlation tensors, i.e., hypercorrelations. Using efficient center-pivot 4D convolutions in a pyramidal architecture, the method gradually squeezes high-level semantic and low-level geometric cues of the hypercorrelation into precise segmentation masks in coarse-to-fine manner. The significant performance improvements on standard few-shot segmentation benchmarks of PASCAL-5i, COCO-20i, and FSS-1000 verify the efficacy of the proposed method.

연구 동기 및 목표

  • 제한된 감독으로 인해 발생하는 few-shot 의미 분할의 일반화 격차를 동기 부여하고 해결한다.
  • 다양한 중간에서 고수준의 CNN 특징을 활용하여 풍부한 이미지 간 대응 관계를 구축한다.
  • 조밀한 하이퍼상관을 거친-세밀한 방식으로 처리하기 위한 효율적인 4D 합성 프레임워크를 개발한다.
  • 센터 피봇 4D 커널과 피라미드형 인코더-디코더 설계를 통해 실시간 추론을 가능하게 한다.
  • 단순한 보팅 및 마스킹 메커니즘으로 K-shot 설정까지 접근 방식을 확장한다.

제안 방법

  • 지원 이미지의 다중 레벨 특징 맵을 마스킹하고 쿼리 특징과의 코사인 기반 4D 상관 텐서를 계산하여 하이퍼상관을 구성한다.
  • 선택된 피라미드 계층에서 상관된 텐서를 연결하여 다양한 의미론적 및 기하학적 신호를 나타내는 하이퍼상관 피라미드를 형성한다.
  • 수축(squeezing) 및 혼합(mixing) 블록이 있는 4D 합성 피라미드 인코더를 사용하여 하이퍼상관을 점차 압축하여 컴팩트한 컨텍스트 특징 Z로 만든다.
  • 2D 컨볼루션 컨텍스트 디코더로 컨텍스트 특징을 디코딩하여 쿼리 이미지의 전경/배경 마스크를 예측한다.
  • 센터 피봇 4D 컨볼루션을 도입하여 두 개의 2D 컨볼루션 구성요소를 통해 4D 커널 복잡도를 감소시켜 더 가볍고 빠른 추론을 가능하게 한다.
  • K-샷 시나리오에 대해 K번의 순전파를 실행하고 픽셀 단위 보팅을 수행하여 최종 마스크를 얻는다.

실험 결과

연구 질문

  • RQ1지지 이미지와 쿼리 이미지 간의 다양하고 다중 레벨 특징 상관관계를 어떻게 활용하여 정확한 few-shot 분할을 달성할 수 있을까?
  • RQ2가볍고 고차원의 합성(4D) 아키텍처를 정확도를 유지하면서 실시간 추론에 충분히 효율적으로 만들 수 있을까?
  • RQ3피라미드 기반의 거칠고 세밀한 하이퍼상관의 압축이 단일 레벨 또는 단일 스케일 접근법보다 분할 품질을 향상시키나요?
  • RQ4제안된 방법이 도메인 시프트 및 다른 백본 네트워크에서 어떻게 성능을 발휘하나요?
  • RQ5접근법을 일반성 손실 없이 자연스럽게 K-shot 설정으로 확장할 수 있나요?

주요 결과

  • HSNet를 제안하여 PASCAL-5i, COCO-20i, FSS-1000 벤치마크에서 새로운 최첨단 성능을 달성한다.
  • 다중 레벨 하이퍼상관과 4D 합성의 결합이 1-shot 및 5-shot 설정에서 상당한 이점을 가져온다는 것을 보여준다.
  • 센터 피봇 4D 컨볼루션을 도입하여 표준 4D 커널에 비해 메모리 및 시간 효율적인 대안을 제공하면서도 정확성을 유지한다.
  • 도메인 시프트에 대한 강인성을 보여주며 (COCO에서 학습된 모델을 PASCAL-5i에 적용) 경쟁력 있는 결과와 매개변수 감소를 보여준다.
  • 피라미드 전반에 걸친 의미론적 및 기하학적 신호를 모두 포함하는 것이 단일 레이어 상관관계에 비해 경계 정제 및 위치 지정 성능을 향상시킨다는 것을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.