QUICK REVIEW

[논문 리뷰] Recurrent Neural Networks for Semantic Instance Segmentation

Amaia Salvador, Míriam Bellver|arXiv (Cornell University)|2017. 12. 02.

Topic Modeling참고 문헌 45인용 수 65

한 줄 요약

프로포절 기반의 포스트 프로세싱 없이 이미지 픽셀에서 직접 가변 길이의 시퀀스의 시맨틱 인스턴스 마스크와 클래스 레이블을 생성하는 엔드투엔드 순환 모델을 소개한다.

ABSTRACT

We present a recurrent model for semantic instance segmentation that sequentially generates binary masks and their associated class probabilities for every object in an image. Our proposed system is trainable end-to-end from an input image to a sequence of labeled masks and, compared to methods relying on object proposals, does not require post-processing steps on its output. We study the suitability of our recurrent model on three different instance segmentation benchmarks, namely Pascal VOC 2012, CVPPP Plant Leaf Segmentation and Cityscapes. Further, we analyze the object sorting patterns generated by our model and observe that it learns to follow a consistent pattern, which correlates with the activations learned in the encoder part of our network. Source code and models are available at https://imatge-upc.github.io/rsis/

연구 동기 및 목표

객체 제안이나 포스트 프로세싱 없이 시맨틱 인스턴스 분할을 동기 부여하고 해결한다.
이미지의 모든 객체에 대한 마스크와 클래스 레이블의 시퀀스를 출력하는 엔드투엔드 순환 아키텍처를 개발한다.
다른 개수의 객체를 가진 이미지에 대응하기 위해 가변 길이 출력을 가능하게 한다.
모델의 학습된 객체 탐지 패턴과 정렬 동작을 분석한다.
일반화성과 확장성을 평가하기 위해 다양한 데이터셋에서 접근법을 평가한다.

제안 방법

이미지넷에서 사전 학습된 ResNet-101 인코더를 사용하여 입력 이미지에서 다층 특성을 추출한다.
스킵 연결을 통해 인코더 특성을 업샘플링하고 병합하는 계층형 ConvLSTM 기반 디코더를 사용하여 시간당 하나의 객체 마스크를 생성한다.
각 단계에서 이진 마스크, 바운딩 박스, 클래스 확률 분포, 그리고 객체 신호 점수를 예측한다; 시퀀스 길이는 정지 신호에 의해 결정된다.
세그먼테이션(sIoU), 바운딩 박스 회귀, 분류(cross-entropy), 그리고 stop(binary cross-entropy) 항을 결합한 다중 작업 손실로 학습한다; 긴 시퀀스에는 커리큘럼 학습을 사용한다.
예측 마스크를 sIoU를 비용으로 사용하는 헝가리안 알고리즘으로 실제 마스크와 매칭하여 고정된 출력 크기 없이 엔드투엔드 학습을 가능하게 한다.
사전 정의된 정렬 전략 및 인코더 활성화와 예측 순서를 상관시켜 객체 정렬 패턴 분석을 포함한다.

실험 결과

연구 질문

RQ1객체 제안이나 포스트 프로세싱에 의존하지 않고 엔드 투 엔드 순환 모델이 정확하게 시맨틱 인스턴스 분할을 수행할 수 있는가?
RQ2순환 디코더가 어떻게 여러 인스턴스를 순차적으로 탐지하고 분할하는지 학습하며, 어떤 객체 정렬 패턴이 나타나는가?
RQ3이미지당 객체 수가 다른 데이터셋(Pascal VOC, CVPPP, Cityscapes)에서 모델의 성능은 어떻게 나타나는가?

주요 결과

모델은 세 가지 벤치마크에서 경쟁력 있는 성능을 달성하며, 일부 순차적 방법을 능가하고 비순차적 최신 방법과는 더 높은 IoU 임계에서 차이를 보인다.
더 깊은 ResNet-101 인코더와 연결된 스킵 연결이 Pascal VOC에서 lighter 백본에 비해 사람 클래스의 AP50 및 AP50을 더 좋게 한다.
디코더는 더 깊은 ConvLSTM 스택과 인코더 측 스킵 연결에서 이점을 얻으며, 이를 제거하면 성능이 저하되어 다중 스케일의 순환 디코딩의 중요성을 강조한다.
예측은 데이터셋 의존적인 일관된 정렬 패턴을 보이며(Pascal VOC에서 오른쪽에서 왼쪽으로, Cityscapes에서 왼쪽에서 오른쪽으로 등), 인코더 활성화와 상관되어 학습된 스캔 경로를 시사한다.
후반 시간 단계에서 마스크 품질이 저하되며, 더 긴 시퀀스에서 정보를 유지하는 데 bottleneck가 있음을 시사하고 작은 객체나 고해상도 입력에서 개선의 여지가 있다.
Cityscapes에서 이 방법은 순차적 방법과 경쟁하지만 일부 범주 및 일부 IoU 임계값에서 비순차적 최신보다 뒤처진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.