QUICK REVIEW

[논문 리뷰] Semantic Instance Segmentation with a Discriminative Loss Function

Bert De Brabandere, Davy Neven|arXiv (Cornell University)|2017. 08. 08.

Advanced Neural Network Applications참고 문헌 38인용 수 442

한 줄 요약

같은 인스턴스의 픽셀은 서로 가깝게, 서로 다른 인스턴스는 떨어지도록 픽셀을 임베딩에 매핑하여 픽셀 수준의 판별 손실을 제시하고, 제안이나 재현 없이도 간단한 후처리로 인스턴스 분할이 가능하게 한다.

ABSTRACT

Semantic instance segmentation remains a challenging task. In this work we propose to tackle the problem with a discriminative loss function, operating at the pixel level, that encourages a convolutional network to produce a representation of the image that can easily be clustered into instances with a simple post-processing step. The loss function encourages the network to map each pixel to a point in feature space so that pixels belonging to the same instance lie close together while different instances are separated by a wide margin. Our approach of combining an off-the-shelf network with a principled loss function inspired by a metric learning objective is conceptually simple and distinct from recent efforts in instance segmentation. In contrast to previous works, our method does not rely on object proposals or recurrent mechanisms. A key contribution of our work is to demonstrate that such a simple setup without bells and whistles is effective and can perform on par with more complex methods. Moreover, we show that it does not suffer from some of the limitations of the popular detect-and-segment approaches. We achieve competitive performance on the Cityscapes and CVPPP leaf segmentation benchmarks.

연구 동기 및 목표

객체 제안이나 순환(recurrent) 모델 없이 의미적 인스턴스 분할의 도전과제를 동기 부여하고 해결한다.
픽셀 임베딩을 인스턴스로 군집시키는 판별적(metric-learning에서 영감을 받은) 손실을 도입한다.
새로운 손실과 함께 표준 세분화 백본을 재사용해도 경쟁력 있는 성능을 달성할 수 있음을 보여준다.
Cityscapes의 인스턴스 수준 라벨링과 CVPPP 잎 분할 벤치마크에서 효과를 입증한다.

제안 방법

분할 네트워크를 통해 각 픽셀을 n차원의 임베딩으로 매핑한다.
세 가지 용어를 갖는 판별적 손실을 사용한다: 클러스터 내 분산(intra-cluster variance) — 임베딩을 클러스터 중심으로 당김, 클러스터 간 거리(inter-cluster distance) — 클러스터 중심을 서로 멀게 함, 그리고 정규화 항.
분산 및 거리 용도에 힌지 기반(마진) 손실을 적용하여 로컬 매니폴드 표현을 허용한다.
추론 시 임베딩을 클러스터 중심 주위 임계값으로 클러스터링하거나 mean-shift에서 영감을 받은 정교화를 통해 이산적인 인스턴스를 얻는다.
일반적인 아키텍처(ResNet-38)로 학습하고 손실 및 소수의 후처리 단계만 적응시킨다.
단순성 및 효과를 강조하기 위해 제안 기반 및 순환 방법과 비교한다.

실험 결과

연구 질문

RQ1제안 없이 픽셀 수준의 판별 손실이 제안이나 재현 아키텍처 없이도 정확한 인스턴스 분할을 가능하게 하는가?
RQ2학습된 임베딩의 클러스터링 기반 후처리가 Cityscapes와 CVPPP 같은 challenging 벤치마크에서 어떤 성과를 내는가?
RQ3의미론적 분할 품질과 클러스터링 전략이 전체 인스턴스 분할 성능에 어떤 영향을 미치는가?
RQ4제안된 방법이 정확도와 복잡도 면에서 최첨단 방법과 어떻게 비교되는가?

주요 결과

방법	AP	AP0.5	AP100m	AP50m
Ours	17.5	35.9	27.8	31.0

판별 손실이 Cityscapes와 CVPPP에서 경쟁력 있는 인스턴스 분할 성능을 내며 최첨단 비제안 방법과 대등한 성능을 달성한다.
CVPPP에서 이 접근법은 84.2의 SBD 점수를 달성하여 최첨단 84.9에 근접하지만 더 간단한 파이프라인을 사용한다.
Cityscapes에서 방법은 경쟁력 있는 AP 지표를 달성하고 물체 제안에 의존하지 않고도 가려진 부분과 복잡한 장면에 대해 견고함을 보인다.
의미론적 분할 품질과 클러스터링 전략의 품질에 강하게 의존하며, 정답 구성 요소(ground-truth components)를 활용한 아블레이션에서 상당한 이점을 얻는다.
간단한 후처리 단계(임계값/mean-shift)에서 이점이 있으며, Heavy CRF나 재귀 디코더 없이도 효율적인 추론이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.