QUICK REVIEW

[논문 리뷰] Detect What You Can: Detecting and Representing Objects using Holistic Models and Body Parts

Xianjie Chen, Roozbeh Mottaghi|arXiv (Cornell University)|2014. 06. 08.

Advanced Image and Video Retrieval Techniques참고 문헌 21인용 수 92

한 줄 요약

이 논문은 완전히 연결된 그래픽 모델과 스위치 변수를 사용하여 가시성에 따라 유연하게 전체 물체 또는 신체 부위를 동적으로 탐지하는 유연한 부분 기반 물체 검출 모델을 제안한다. 이는 신뢰할 수 없는 구성 요소를 분리하는 데 사용되며, 변형, 가림, 저해상도 조건 하에서도 적응형 검출을 가능하게 하여 PASCAL VOC 2010의 동물 카테고리에서 최신 기술 대비 4.1% AP 향상을 달성한다. 또한 새로운 완전한 애너테이션을 가진 데이터셋을 통해 정밀한 부위 국소화를 제공한다.

ABSTRACT

Detecting objects becomes difficult when we need to deal with large shape deformation, occlusion and low resolution. We propose a novel approach to i) handle large deformations and partial occlusions in animals (as examples of highly deformable objects), ii) describe them in terms of body parts, and iii) detect them when their body parts are hard to detect (e.g., animals depicted at low resolution). We represent the holistic object and body parts separately and use a fully connected model to arrange templates for the holistic object and body parts. Our model automatically decouples the holistic object or body parts from the model when they are hard to detect. This enables us to represent a large number of holistic object and body part combinations to better deal with different "detectability" patterns caused by deformations, occlusion and/or low resolution. We apply our method to the six animal categories in the PASCAL VOC dataset and show that our method significantly improves state-of-the-art (by 4.1% AP) and provides a richer representation for objects. During training we use annotations for body parts (e.g., head, torso, etc), making use of a new dataset of fully annotated object parts for PASCAL VOC 2010, which provides a mask for each part.

연구 동기 및 목표

물체 검출에서 높은 형태의 변형, 부분적 가림, 저해상도 상태에 있는 동물을 탐지하는 과제를 해결한다.
적응형 스위칭을 통해 전체 물체와 신체 부위를 별도로 모델링하여 검출의 강건성을 향상시킨다.
경계 상자보다 더 rich한 물체 표현을 제공하기 위해 머리, 흉부, 다리와 같은 신체 부위를 고정밀도로 국소화한다.
신체 부위가 탐지하기 어려운 경우, 전체 물체 또는 신뢰할 수 있는 부위에 의존할 수 있도록 모델이 작동하도록 한다.
PASCAL VOC 2010의 6종의 동물 카테고리에 대해 픽셀 단위 마스크 애너테이션을 제공하는 새로운 데이터셋을 개발하고 공개한다.

제안 방법

노드가 전체 물체와 신체 부위(머리, 흉부, 다리)를 나타내는 완전히 연결된 그래픽 모델을 사용하며, 간선은 공간적 및 척도 관계를 인코딩한다.
각 노드에 대해 가시성이 떨어질 경우 전체 물체 또는 신체 부위를 동적으로 분리하는 데 사용되는 스위치 변수를 도입한다.
공유 노드를 다양한 가시성 패턴 간에 활용하여 효율성을 유지하면서 루프가 있는 그래프에서 추론을 수행한다.
PASCAL VOC 2010용으로 새로 제작된 완전한 애너테이션 데이터셋에서의 부위 수준 애너테이션(마스크)을 사용해 모델을 훈련시킨다.
검출 AP를 최적화하면서도 공동 모델링을 통해 부위 국소화를 가능하게 하는 분류 기반 학습 프레임워크를 사용한다.
가시성 기반 전략 대신 가시성 기반 전략을 적용하여, 변형된 몸체나 작은 부위와 같이 탐지하기 어려운 구성 요소를 무시할 수 있도록 한다.

실험 결과

연구 질문

RQ1큰 형태의 변형, 부분적 가림, 저해상도 조건 하에서 어떻게 물체 검출 성능을 향상시킬 수 있는가?
RQ2일관된 모델이 가시성에 따라 전체 물체 또는 신체 부위 탐지 간에 동적으로 전환할 수 있는가?
RQ3전체 물체와 부위 수준 표현을 함께 모델링하면 더 나은 검출 성능와 richer한 물체 기술을 얻을 수 있는가?
RQ4작은, 가려진, 모호한 부위가 있는 경우 모델의 부위 국소화 성능는 얼마나 효과적인가?
RQ5가시성 기반 스위칭 메커니즘이 가시성 기반 또는 고정된 부위 모델보다 우월한가?

주요 결과

제안된 방법은 PASCAL VOC 2010의 동물 카테고리에서 최신 기술 대비 4.1%의 절대적인 평균 정밀도(AP) 향상을 달성한다.
모델은 DPM 대비 7.3% AP, Sup-DPM 대비 4.1% AP를 향상시키며, 전체 물체를 사용하지 않고 부위만 사용하는 단순화된 형태에서도 성능이 뛰어나다.
초소형(XS) 물체의 경우, 66.7%의 새 인스턴스와 52.5%의 양 인스턴스가 전체 물체만을 기반으로 탐지되며, 이는 저해상도 상황에서의 모델의 적응 능력을 보여준다.
고양이의 경우 머리 국소화는 73.5% POP와 77.3% PCP를 기록하며, 양의 흉부는 79.2% POP와 88.6% PCP를 기록하여 명확하거나 안정적인 부위에 대해 매우 높은 신뢰도를 보인다.
개의 다리 국소화는 28.1% POP와 44.9% PCP를 기록하여 잘린 부분이나 작은 크기로 인해 중간 수준의 성능을 보인다.
초소형 물체의 경우 전체 물체 전용 가시성 패턴이 가장 효과적이며, 66.7%의 새 인스턴스와 52.5%의 양 인스턴스가 전체 물체에만 의존한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.