QUICK REVIEW

[논문 리뷰] SG-One: Similarity Guidance Network for One-Shot Semantic Segmentation

Xiaolin Zhang, Yunchao Wei|arXiv (Cornell University)|2018. 10. 22.

Domain Adaptation and Few-Shot Learning참고 문헌 54인용 수 84

한 줄 요약

SG-One은 마스크드 평균 풀링을 이용해 객체 중심 가이던스 벡터를 만들고 코사인 유사도 맵으로 보지 않은 클래스의 원샷 시맨틱 세그멘테이션을 안내하는 통합 네트워크를 도입하여 PASCAL-5i에서 최첨단 평균 IoU를 달성한다.

ABSTRACT

One-shot image semantic segmentation poses a challenging task of recognizing the object regions from unseen categories with only one annotated example as supervision. In this paper, we propose a simple yet effective Similarity Guidance network to tackle the One-shot (SG-One) segmentation problem. We aim at predicting the segmentation mask of a query image with the reference to one densely labeled support image of the same category. To obtain the robust representative feature of the support image, we firstly adopt a masked average pooling strategy for producing the guidance features by only taking the pixels belonging to the support image into account. We then leverage the cosine similarity to build the relationship between the guidance features and features of pixels from the query image. In this way, the possibilities embedded in the produced similarity maps can be adapted to guide the process of segmenting objects. Furthermore, our SG-One is a unified framework which can efficiently process both support and query images within one network and be learned in an end-to-end manner. We conduct extensive experiments on Pascal VOC 2012. In particular, our SGOne achieves the mIoU score of 46.3%, surpassing the baseline methods.

연구 동기 및 목표

하나의 주석 예시로 보이지 않는 카테고리를 구분하기 위한 원샷 시맨틱 세그멘테이션의 동기를 제시한다.
네트워크 입력을 변경하지 않으면서 견고한 지원 객체 표현을 개발한다.
픽셀 단위 코사인 유사도를 활용하여 질의 이미지의 세그멘테이션을 안내한다.
지원/쿼리 처리를 하나의 엔드투엔드 학습 가능한 네트워크로 통합한다.
PASCAL-5i에서 기존 방법들보다 향상된 성능을 입증한다.

제안 방법

공유 스템 네트워크를 사용하여 지원 이미지와 질의 이미지에서 고수준 특징을 추출한다.
지원 마스크 위에서 masked average pooling을 통해 견고한 객체 표현을 계산한다.
지원 표현과 질의 특징 간의 픽셀 단위 코사인 유사도를 계산하여 similarity guidance map을 형성한다.
질의 특징에 similarity guidance map을 곱하여 목표 객체를 향해 세그멘테이션을 유도한다.
가이던스와 질의 특징을 입력으로 받는 세그멘테이션 분기를 사용하여 엔드투엔드 프레임워크에서 최종 마스크를 예측한다.
교차 엔트로피 손실로 학습하고 파인 튜닝 없이 원샷 테스트를 가능하게 한다.

실험 결과

연구 질문

RQ1유사도 가이던스가 있는 통합 네트워크가 보이지 않는 클래스의 원샷 세그멘테이션을 향상시킬 수 있는가?
RQ2masked average pooling이 마스킹이나 연결 방식보다 우수한 객체 표현을 제공하는가?
RQ3코사인 유사도 가이던스가 PASCAL-5i 폴드 전반의 세그멘테이션 성능에 어떤 영향을 미치는가?
RQ4재학습 없이 다중 클래스 질의 이미지와 소샷 확장(K-shot)에 대해 접근법이 견고한가?

주요 결과

SG-One은 원샷 세그멘테이션에서 PASCAL-5i의 평균 IoU 46.3%를 달성하며 베이스라인보다 우수하다.
지원 마스크의 masked average pooling은 마스킹이나 연결 방식보다 더 나은 대표 벡터를 제공한다.
다섯 샷 결과(지원 벡터 평균)는 47.1% 평균 IoU를 산출하며 원샷보다 약간 높지만 큰 차이는 아니다.
OSLSM 및 co-FCN과 비교하여 SG-One은 네 가지 PASCAL-5i 폴드 전반에서 현저한 개선을 보인다.
다중 클래스 질의 시나리오에서 SG-One의 강건성을 보여주며 다중 클래스 설정에서 baseline co-FCN을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.