QUICK REVIEW

[논문 리뷰] Deep Variational Instance Segmentation

Jialin Yuan, Chao Chen|arXiv (Cornell University)|2020. 07. 22.

Advanced Neural Network Applications인용 수 3

한 줄 요약

이 논문은 심층 변동형 인스턴스 세그멘테이션 방법을 제안하며, 인스턴스 세그멘테이션을 변동 최적화 문제로 공식화하여 완전 컨volution 네트워크(FCN)를 통해 직접 인스턴스 레이블을 예측한다. 이는 퍼머터레이션 인variant 인스턴스 레이블을 처리할 수 있도록 Mumford-Shah 기능을 확장함으로써 엔드 투 엔드 학습을 가능하게 하며, PASCAL VOC 2012, SBD, MSCOCO 2017에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Instance Segmentation, which seeks to obtain both class and instance labels for each pixel in the input image, is a challenging task in computer vision. State-of-the-art algorithms often employ two separate stages, the first one generating object proposals and the second one recognizing and refining the boundaries. Further, proposals are usually based on detectors such as faster R-CNN which search for boxes in the entire image exhaustively. In this paper, we propose a novel algorithm that directly utilizes a fully convolutional network (FCN) to predict instance labels. Specifically, we propose a variational relaxation of instance segmentation as minimizing an optimization functional for a piecewise-constant segmentation problem, which can be used to train an FCN end-to-end. It extends the classical Mumford-Shah variational segmentation problem to be able to handle permutation-invariant labels in the ground truth of instance segmentation. Experiments on PASCAL VOC 2012, Semantic Boundaries dataset(SBD), and the MSCOCO 2017 dataset show that the proposed approach efficiently tackle the instance segmentation task. The source code and trained models will be released with the paper.

연구 동기 및 목표

영역 제안 생성을 전면적으로 의존하는 이중 단계 인스턴스 세그멘테이션 파이프라인의 한계를 해결하기 위해.
완전 컨볼루션 네트워크(FCN)를 사용하여 엔드 투 엔드로 학습 가능한 인스턴스 세그멘테이션 프레임워크를 개발하기 위해.
기존의 Mumford-Shah 변동 세그멘테이션 모델을 인스턴스 수준의 레이블과 퍼머터레이션 인variant를 처리할 수 있도록 확장하기 위해.
중간 영역 제안이나 R-CNN 기반 검출기 없이 직접 인스턴스 마스크를 예측할 수 있도록 하기 위해.
PASCAL VOC 2012, SBD, MSCOCO 2017를 포함한 표준 벤치마크에서 경쟁 가능한 성능을 달성하기 위해.

제안 방법

조각별로 일정한 세그멘테이션 문제를 최소화하는 최적화 기능을 최소화하는 방식으로 인스턴스 세그멘테이션의 변동적 리프레젠테이션을 제안한다.
지식 기반에서의 퍼머터레이션 인variant 레이블을 포함시키기 위해 Mumford-Shah 기능을 확장한다.
변동 최적화 기능을 최적화하여 완전 컨볼루션 네트워크(FCN)를 사용해 엔드 투 엔드로 세그멘테이션 마스크를 예측한다.
백프로파게이션을 세그멘테이션 출력을 통해 가능하게 하기 위해 이산 레이블링 문제의 미분 가능 리프레젠테이션을 활용한다.
단일 프로퍼티세션 동안 다수의 인스턴스를 처리할 수 있도록 미분 가능 클러스터링 또는 그룹화 메커니즘을 활용한다.
변동 공식화에서 유도된 미분 가능 손실을 사용하여 표준 백프로파게이션으로 모델을 엔드 투 엔드로 학습시킨다.

실험 결과

연구 질문

RQ1영역 제안 네트워크 없이도 완전 컨볼루션 네트워크를 엔드 투 엔드로 학습시켜 인스턴스 세그멘테이션을 수행할 수 있는가?
RQ2Mumford-Shah 변동 모델은 어떻게 퍼머터레이션 인variant 인스턴스 수준의 레이블을 처리할 수 있도록 적응시킬 수 있는가?
RQ3인스턴스 세그멘테이션의 변동적 리프레젠테이션은 표준 벤치마크에서 경쟁 가능한 성능을 낼 수 있는가?
RQ4제안된 방법은 이중 단계 검출 파이프라인에 의존하지 않고 최신 기술 수준의 성능을 달성할 수 있는가?
RQ5제안된 방법은 VOC, SBD, COCO와 같은 다양한 데이터셋에 대해 어떻게 일반화되는가?

주요 결과

제안된 방법은 영역 제안이나 이중 단계 검출을 사용하지 않고도 PASCAL VOC 2012 데이터셋에서 최신 기술 수준의 성능을 달성한다.
경계 정확도가 강조되는 SBD 데이터셋에서도 강력한 일반화 성능을 보여준다.
대규모이고 혼잡한 장면을 포함한 MSCOCO 2017 데이터셋에서도 경쟁 가능한 결과를 달성하여 복잡한 환경에 대한 확장성을 입증한다.
엔드 투 엔드 학습 체계는 Faster R-CNN과 같은 이중 단계 검출기보다 더 빠른 추론을 가능하게 한다.
변동 공식화는 퍼머터레이션 인variant 인스턴스 레이블을 성공적으로 처리하여 안정적인 학습과 추론을 가능하게 한다.
소스 코드와 학습된 모델이 공개되어 재현성과 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.