QUICK REVIEW

[논문 리뷰] Deep Learning for Semantic Part Segmentation with High-Level Guidance

Stavros Tsogkas, Iasonas Kokkinos|arXiv (Cornell University)|2015. 05. 10.

Advanced Neural Network Applications참고 문헌 40인용 수 42

한 줄 요약

이 논문은 완전 컨volution 네트워크와 조밀한 CRF 후처리를 결합하고, 분류적으로 훈련된 제한된 버르모프 맨틀리니(Restricted Boltzmann Machine, RBM)를 통해 고수준의 형태 사전 지식을 통합한 딥러닝 프레임워크를 제안한다. 이 방법은 보행자 및 얼굴 분할 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성하며, 지정된 경계 상자 없이도 제약 없는 환경에서도 정확한 분할을 가능하게 하는 다중 척도 추론 기반 설계를 통해 성능을 높인다.

ABSTRACT

In this work we address the task of segmenting an object into its parts, or semantic part segmentation. We start by adapting a state-of-the-art semantic segmentation system to this task, and show that a combination of a fully-convolutional Deep CNN system coupled with Dense CRF labelling provides excellent results for a broad range of object categories. Still, this approach remains agnostic to high-level constraints between object parts. We introduce such prior information by means of the Restricted Boltzmann Machine, adapted to our task and train our model in an discriminative fashion, as a hidden CRF, demonstrating that prior information can yield additional improvements. We also investigate the performance of our approach ``in the wild'', without information concerning the objects' bounding boxes, using an object detector to guide a multi-scale segmentation scheme. We evaluate the performance of our approach on the Penn-Fudan and LFW datasets for the tasks of pedestrian parsing and face labelling respectively. We show superior performance with respect to competitive methods that have been extensively engineered on these benchmarks, as well as realistic qualitative results on part segmentation, even for occluded or deformable objects. We also provide quantitative and extensive qualitative results on three classes from the PASCAL Parts dataset. Finally, we show that our multi-scale segmentation scheme can boost accuracy, recovering segmentations for finer parts.

연구 동기 및 목표

의미적 부분 분할 성능을 향상시키기 위해 딥러닝 파이프라인에 고수준의 구조적 사전 지식을 통합한다.
자세나 변형과 같은 기하학적 변형 문제를 다루기 위해 민감한 통계적 형태 모델을 통해 유연하게 처리한다.
정확한 객체 경계 상자 없이도 실제 환경에서 정확한 부분 분할을 가능하게 한다.
분류적으로 훈련된 형태 사전 지식이 원시 CNN 예측 성능을 초월하여 성능 향상을 이끌어내는지 검증한다.
객체 검출기를 기반으로 한 다중 척도 추론 전략을 개발하여 제약 없는 이미지에서의 강건한 분할을 가능하게 한다.

제안 방법

최신 기술 수준의 의미적 분할 시스템(Chen 등, 2014a)을 활용하여 완전 컨볼루션 네트워크 후에 조밀한 CRF 후처리를 적용한다.
복잡한 다중 모달 부분 구성과 형태 변동성을 모델링하기 위해 수정된 제한된 버르모프 맨틀리니(Restricted Boltzmann Machine, RBM)를 도입한다.
CNN 점수를 기반으로 참조 부분 마스크의 사후 확률을 최대화하는 방식으로 RBM를 분류적으로 훈련시켜, 숨겨진 CRF로 활용한다.
다양한 이미지 척도(원본, 1.5×, 2×)에서의 특징 맵을 활용한 다중 척도 추론 전략을 적용하여 해상도와 정확도를 향상시킨다.
사전 훈련된 객체 검출기(Ren 등, 2015)를 사용하여 영역 제안을 생성하고, 네트워크의 표준 입력 크기(321×321)에 가까운 척도를 각 영역에 대해 선택한다.
겹치는 여러 박스가 존재할 경우, 각 이미지 위치에 대해 최고 점수를 기록한 제안을 기반으로 CNN 점수를 조합한다.

실험 결과

연구 질문

RQ1다양한 객체 카테고리에 걸쳐 세분화된 의미적 부분 분할을 위해 일반적인 의미적 분할 프레임워크를 효과적으로 적응시킬 수 있는가?
RQ2예를 들어 부분 레이아웃 제약 같은 고수준의 구조적 사전 지식을 어떻게 딥러닝 파이프라인에 효과적으로 통합하여 부분 분할 정확도를 향상시킬 수 있는가?
RQ3분류적으로 훈련된 RBM 모델이 기존의 형태 모델보다 복잡한 다중 모달 형태 변동성을 더 효과적으로 포착할 수 있는가?
RQ4객체 검출을 기반으로 한 다중 척도 특징 융합은 제약 없는 이미지에서 세분화된 부분의 분할 성능에 어떻게 기여하는가?
RQ5사전 훈련된 CNN에 CRF 후처리를 적용한 시스템이 벤치마크 기반의 부분 분할 데이터셋에서 특수하게 설계된 수작업 기반 방법보다 뛰어난 성능을 보일 수 있는가?

주요 결과

제안된 방법은 보행자 분할을 위한 Penn-Fudan 데이터셋에서 광범위하게 설계된 경쟁 방법들을 능가하는 뛰어난 성능을 달성한다.
얼굴 레이블링을 위한 LFW 데이터셋에서, 조각나거나 기형이 있는 얼굴에 대해서도 현실적인 정성 있는 결과를 도출한다.
PASCAL Parts 데이터셋의 세 가지 클래스에서 강력한 정량적 성능을 보이며, 다양한 객체 카테고리로의 일반화 능력을 확인한다.
다중 척도 분할 전략은 더 세밀한 부분 세부 정보 복구를 가능하게 하여, 재학습 없이도 PASCAL-Parts 검증 세트에서 픽셀 정확도를 73.9%에서 74.7%로 향상시킨다.
CNN 특징를 기반으로 분류적으로 훈련된 RBM는 원시 CNN 예측 성능을 향상시키는 데서 명백한 개선 효과를 보이며, 고수준 사전 지식 통합의 유용성을 검증한다.
지정된 경계 상자 없이도 객체 검출기만을 활용해 척도와 위치 안내를 받는 방식으로, 실제 환경에서의 부분 분할을 성공적으로 수행한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.