QUICK REVIEW

[논문 리뷰] Holistic, Instance-Level Human Parsing

Qizhu Li, Anurag Arnab|arXiv (Cornell University)|2017. 09. 11.

Advanced Neural Network Applications참고 문헌 31인용 수 23

한 줄 요약

이 논문은 인간 검출을 조건으로 하는 가분성 있는 조건부 랜덤 필드(CRF)를 사용하여 개체 수준의 신체 부위와 인간을 동시에 분할하는 통합적이고 엔드 투 엔드 딥 러닝 프레임워크를 제안한다. 이 방법은 단일 순방향 전파에서 개체 수준의 부위 및 인간 분할 모두에서 최신 기술 수준(SOTA) 성능을 달성하고, 카테고리 수준의 부위 분할에서도 경쟁적인 결과를 내며, 모든 성능이 뛰어나다.

ABSTRACT

Object parsing -- the task of decomposing an object into its semantic parts -- has traditionally been formulated as a category-level segmentation problem. Consequently, when there are multiple objects in an image, current methods cannot count the number of objects in the scene, nor can they determine which part belongs to which object. We address this problem by segmenting the parts of objects at an instance-level, such that each pixel in the image is assigned a part label, as well as the identity of the object it belongs to. Moreover, we show how this approach benefits us in obtaining segmentations at coarser granularities as well. Our proposed network is trained end-to-end given detections, and begins with a category-level segmentation module. Thereafter, a differentiable Conditional Random Field, defined over a variable number of instances for every input image, reasons about the identity of each part by associating it with a human detection. In contrast to other approaches, our method can handle the varying number of people in each image and our holistic network produces state-of-the-art results in instance-level part and human segmentation, together with competitive results in category-level part segmentation, all achieved by a single forward-pass through our neural network.

연구 동기 및 목표

기존의 인간 분할 방법이 카테고리 수준에서만 작동하여 다수의 인물이 있는 장면에서 서로 다른 개인에 속하는 부위를 구분하지 못하는 한계를 해결하기 위해.
개체 수준의 신체 부위 및 전체 인간의 동시에 분할을 가능하게 하여 정확한 부위-사람 연관성을 확보하기 위해.
이미지당 사람 수가 변동하는 상황을 다룰 수 있고, 불완전하거나 부분적인 물체 검출에 대해서도 강건한 엔드 투 엔드 학습 가능한 네트워크를 개발하기 위해.
개체 수준의 부위 분할이 전체 인간 개체 분할 성능을 향상시켜 이전 방법보다 뛰어난 성능을 내는지 입증하기 위해.

제안 방법

프레임워크는 완전 컨volution 네트워크(FCN)로 구현된 카테고리 수준의 부위 분할 모듈로 시작된다.
이후 인간 검출 바운딩 박스를 입력으로 사용하는 가분성 있고 개체 인식 기반의 조건부 랜덤 필드(CRF)를 적용한다. 이 CRF는 이미지당 변동 가능한 수의 인간 개체를 고려하여 작동한다.
CRF는 가시성 있는 메시지 전달 메커니즘을 통해 학습 가능한 가분성 메커니즘을 사용하여 각 분할된 부위를 특정 인간 개체에 할당함으로써 부위-개체 할당을 최적화한다.
전체 네트워크는 이미지당 개체 수가 변동하는 것을 수용할 수 있는 새로운 손실 함수를 사용하여 엔드 투 엔드로 학습된다.
모델은 후처리 없이도 개체 수준의 부위 분할 및 개체 수준의 인간 분할(각 사람의 모든 부위의 합집합을 통해)을 동시에 출력한다.
CRF의 전역 추론 능력 덕분에 잘못된 검출 또는 부분적인 바운딩 박스에 대해서도 강건하다.

실험 결과

연구 질문

RQ1부위 및 인간 분할을 동시에 수행하는 통합적이고 엔드 투 엔드로 가분성 있는 방식으로 개체 수준의 인간 분할을 달성할 수 있는가?
RQ2부위-개체 할당을 모델링하면 표준 개체 분할 방법에 비해 인간 개체 분할 정확도가 어떻게 향상되는가?
RQ3부위 수준의 구조를 학습하는 것이 특히 겹쳐진 또는 혼잡한 장면에서 전체 인간 분할 성능에 얼마나 기여하는가?
RQ4단일 순방향 전파로 아키텍처나 추론 복잡도의 성능 희생 없이 카테고리 수준과 개체 수준의 분할을 동시에 생성할 수 있는가?

주요 결과

제안된 방법은 인간 개체 분할에서 IoU 임계값 0.5일 때 평균 AP가 61.0%를 기록하여 이전 최신 기술 수준(SOTA)을 크게 앞서 간다.
개체 수준의 부위 분할에서는 IoU 임계값 0.5일 때 70.2%의 AP를 달성하여 이전 방법들인 Arnab 등 [2] (57.4%) 및 R2-IOS [31] (60.4%)를 능가한다.
카테고리 수준의 부위 분할 성능은 평균 IoU 66.3%를 기록하여 최신 기술 수준의 방법들과 경쟁 가능하며, 初기 카테고리 수준 모듈 대비 0.4% 향상되었다.
검출 결과가 부분적으로나마 개인을 커버하지 않더라도, 모델은 부위 분할을 성공적으로 수행한다.
개체 인식 기반의 CRF를 통해 전역 추론 능력을 활용함으로써, 겹쳐진 사람들의 혼잡한 장면에서 일반화 성능이 향상된다.
인간 개체 분할 성능 향상 요인은 학습 과정에서 부위 수준의 관계와 부위-개체 할당을 명시적으로 모델링한 데 기인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.