QUICK REVIEW

[논문 리뷰] Instance-Level Segmentation for Autonomous Driving with Deep Densely Connected MRFs

Ziyu Zhang, Sanja Fidler|arXiv (Cornell University)|2015. 12. 21.

Advanced Neural Network Applications참고 문헌 26인용 수 20

한 줄 요약

이 논문은 자율주행에서 단일 영상에서 국소적 CNN 예측을 이용해 전역적으로 일관된 인스턴스 수준 세분화를 달성하기 위해 밀집 연결 MRF(Markov Random Field)를 제안한다. 겹치는 패치에서의 국소적 CNN 예측을 활용하여, 패치 수준 출력과의 호환성, 대trast-민감한 스무스니스, Potts 포텐셜을 통한 인스턴스 간 분리성을 통합함으로써, 효율적인 평균 장 추론을 가능하게 하고 KITTI 벤치마크에서 이전 작업보다 뚜렷한 성능 향상을 달성한다.

ABSTRACT

Our aim is to provide a pixel-wise instance-level labeling of a monocular image in the context of autonomous driving. We build on recent work [Zhang et al., ICCV15] that trained a convolutional neural net to predict instance labeling in local image patches, extracted exhaustively in a stride from an image. A simple Markov random field model using several heuristics was then proposed in [Zhang et al., ICCV15] to derive a globally consistent instance labeling of the image. In this paper, we formulate the global labeling problem with a novel densely connected Markov random field and show how to encode various intuitive potentials in a way that is amenable to efficient mean field inference [Krähenbühl et al., NIPS11]. Our potentials encode the compatibility between the global labeling and the patch-level predictions, contrast-sensitive smoothness as well as the fact that separate regions form different instances. Our experiments on the challenging KITTI benchmark [Geiger et al., CVPR12] demonstrate that our method achieves a significant performance boost over the baseline [Zhang et al., ICCV15].

연구 동기 및 목표

단일 영상에서 국소적이고 겹치는 CNN 예측으로부터 전역적으로 일관된 인스턴스 수준 세분화를 도출하는 문제에 대응하기 위해.
패치 수준 예측을 조합하기 위해 히우리스틱이나 단순 MRF에 의존하는 이전 방법들을 개선하기 위해.
멀리 떨어진 영역 간의 장거리 종속성을 모델링하여 별개의 인스턴스가 융합되는 것을 방지하기 위해.
더 정확한 경계 예측을 위해 대trast-민감한 스무스니스와 인스턴스 간 분리 제약 조건을 통합하기 위해.
평균 장 방법과 호환되는 제약 조건을 사용하여 픽셀 수준 레이블에 대한 효율적인 추론을 가능하게 하기 위해.

제안 방법

모든 픽셀 쌍이 패치 내부 및 패치 예측에서 유도된 먼 거리의 연결된 구성 요소 간에 연결된 밀집 연결 MRF를 수립한다.
세 가지 핵심 포텐셜을 도입: 국소 CNN 예측과의 호환성, 대trast-민감한 스무스니스, 인스턴스 분리용 Potts 포텐셜.
모든 포텐셜을 평균 장 추론에 적합한 방식으로 표현하여 이전의 가우시안 MRF 연구를 확장한다.
다양한 크기의 조밀하게 샘플링된 이미지 패치에서 소프트 인스턴스 레이블을 생성하기 위해 CNN을 사용한다.
예측을 보완하기 위해 후처리(구멍 메꾸기, 영역 제거, 분할)를 적용하며, 특히 전체 모델에서 효과적이다.
모델 파라미터를 선택하기 위해 검증 세트를 사용하며, 인스턴스 수준 F1 점수(InsF1)를 기준으로 한다.

실험 결과

연구 질문

RQ1밀집 연결 MRF는 국소적 CNN 예측을 효과적으로 전역적으로 일관된 인스턴스 레이블링으로 통합할 수 있는가?
RQ2멀리 떨어진 영역 간의 장거리 연결은 세분화에서 인스턴스 분리에 어떻게 기여하는가?
RQ3대trast-민감한 스무스니스는 얼마나 많은 노이즈와 경계 아티팩트를 줄이는가?
RQ4Potts 포텐셜은 효과적으로 인스턴스 유일성과 별개의 객체 융합을 방지하는 데 기여하는가?
RQ5제안된 MRF 제약 조건은 높은 정확도를 유지하면서도 효율적인 추론을 가능하게 하는가?

주요 결과

모든 포텐셜을 통합한 전체 모델은 기준 모델 [32]에 비해 뚜렷한 성능 향상을 보이며, 특히 인스턴스 수준 정밀도와 F1 점수에서 두각을 나타낸다.
'LocCNNPred+InterConnComp' 변형은 먼 거리에 있는 인스턴스에 대해 별개의 레이블링을 유도함으로써 'LocCNNPred'보다 성능이 향상되어 거짓 양성률이 감소한다.
전체 모델에서 스무스니스 항목을 추가함으로써 노이즈가 많고 산만한 영역(특히 인스턴스 경계 근처)이 감소하여 더 깔끔한 예측이 가능해진다.
후처리를 통해 성능이 추가로 향상되었으며, 전체 모델은 KITTI 테스트 세트에서 여러 지표에서 모든 베이스라인을 능가한다.
정성적 결과에서는 제안된 방법이 기준 모델보다 이웃한 인스턴스를 더 잘 분리하는 것으로 나타났다. 기준 모델은 종종 이를 융합한다.
실패 사례는 주로 CNN의 혼동(예: 밴이 자동차로 잘못 분류됨)과 심한 가림 현상 때문이며, 이는 CNN 일반화 능력의 한계를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.