Skip to main content
QUICK REVIEW

[논문 리뷰] Few-Shot Segmentation Propagation with Guided Networks

Kate Rakelly, Evan Shelhamer|arXiv (Cornell University)|2018. 05. 25.
Domain Adaptation and Few-Shot Learning참고 문헌 26인용 수 103
한 줄 요약

이 논문은 희소한 지원 주석으로부터 태스크 표현을 생성하고 추가 최적화 없이 새로운 입력을 분할하는 가이드 네트워크를 제시하여 이미지, 시간, 그리고 장면 간에 빠르게 전파될 수 있도록 한다.

ABSTRACT

Learning-based methods for visual segmentation have made progress on particular types of segmentation tasks, but are limited by the necessary supervision, the narrow definitions of fixed tasks, and the lack of control during inference for correcting errors. To remedy the rigidity and annotation burden of standard approaches, we address the problem of few-shot segmentation: given few image and few pixel supervision, segment any images accordingly. We propose guided networks, which extract a latent task representation from any amount of supervision, and optimize our architecture end-to-end for fast, accurate few-shot segmentation. Our method can switch tasks without further optimization and quickly update when given more guidance. We report the first results for segmentation from one pixel per concept and show real-time interactive video segmentation. Our unified approach propagates pixel annotations across space for interactive segmentation, across time for video segmentation, and across scenes for semantic segmentation. Our guided segmentor is state-of-the-art in accuracy for the amount of annotation and time. See http://github.com/shelhamer/revolver for code, models, and more details.

연구 동기 및 목표

  • 주석 부담을 줄이고 매우 적은 픽셀 수준의 주석으로 분할을 가능하게 한다.
  • 지도 하에 태스크를 전개할 수 있는 엔드 투 엔드 학습 가능 프레임워크를 개발한다.
  • 统一된 방법을 사용하여 공간(이미지), 시간(비디오), 간의 장면(시맨틱 클래스) 간 주석 전파를 수행한다.
  • 새로운 지도가 가능한 경우에 실시간으로 인터랙티브 업데이트를 가능하게 한다.

제안 방법

  • 가이드 g를 도입하여 희소 주석에서 잠재 태스크 표현 z를 추출한다.
  • 지원을 z로 요약하는 가이드링(g) 분기와, z를 주어진 쿼리 분할에 사용하는 추론(f) 분기의 2-브랜치 아키텍처를 사용한다.
  • 이미지와 주석 스트림의 후합(late fusion)을 채택하여 z를 형성하고 기능 대신 마스크를 재계산하여 빠른 업데이트를 가능하게 한다.
  • 위치별 태스크 표현의 전역 풀링을 통해 공간 및 시간에 걸쳐 전파될 수 있는 태스크 벡터를 형성한다.
  • dense 분할 데이터로부터 합성된 에피소드식 희소 샷 분할 태스크로 학습하며, 가이드와 세그먼트를 엔드-투-엔드로 최적화한다.
  • 조건화 전략(특징 융합, 매개변수 회귀, 프로토타입)을 평가하고 특징 융합을 선호하는 가이드 메커니즘으로 선정한다.

실험 결과

연구 질문

  • RQ1단일의 순전파 가이드 네트워크가 극히 희소한 주석에서 밀도 높은 다양한 세그먼트 태스크를 처리할 수 있는가?
  • RQ2주석 같은 지원 정보를 이미지와 어떻게 융합하여 가이드 추론에 효과적인 태스크 표현을 형성하는가?
  • RQ3희소 샷 설정에서 구조화된 출력 분할을 위한 최상의 가이던스 전략은 무엇인가(특징 융합 vs 매개변수 회귀 vs 프로토타입)?
  • RQ4제안된 방법이 인터랙티브 이미지 분할, 의미론적 분할, 비디오 객체 분할 및 실시간 인터랙티브 비디오 분할을 포함한 다양한 task에서 어떻게 성능을 발휘하는가?
  • RQ5가이드의 양(S 샷, P 픽셀)이 달라질 때 모델의 정확도가 유지되는가, 추가 주석으로 빠르게 업데이트될 수 있는가?

주요 결과

  • 가이드 네트워크가 인터랙티브 분할, 비디오 객체 분할, 희소 샷 의미론적 분할에서 희소 주석에 대한 최첨단 정확도를 달성한다.
  • 이미지와 주석 스트림의 후합과 전역 풀링은 정확도를 향상시키고 새로운 주석이 제공될 때 빠른 업데이트를 가능하게 한다.
  • 인터랙티브 및 비디오 작업에서 가이던스는 실시간 또는 준실시간 업데이트를 가능하게 하며 파인튜닝 접근법보다 훨씬 빠르다.
  • Pascal VOC에서 의미론적 분할의 경우 클래스당 두 개의 주석 픽셀만으로도 강력한 성능을 달성하여 희소 규칙에서 dense 주석 기반 기준과 견줄 만한 성능을 보인다.
  • DAVIS 2017 비디오 객체 분할에서 이 방법은 희소 규칙에서 최첨단이며, 밀집 규칙에서 상당한 정확도와 경쟁력 있는 속도를 보인다(예: 동일한 시간 범위에서 동피 대비 80% 상대 개선으로 33.3% 정확도).
  • 이 방법은 이미지, 비디오 및 의미론적 작업 간에 단일 모듈로 교차 모드 전이를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.