QUICK REVIEW

[논문 리뷰] Combining Local Appearance and Holistic View: Dual-Source Deep Neural Networks for Human Pose Estimation

Xiaochuan Fan, Kang Zheng|arXiv (Cornell University)|2015. 04. 27.

Human Pose and Action Recognition참고 문헌 32인용 수 92

한 줄 요약

이 논문은 이미지 패치에서의 국소 부위 외형과 전체 신체 뷰에서의 포괄적 신체 맥락을 동시에 활용하여 2D 인간 자세 추정을 위한 이중 소스 컨볼루션 신경망(DS-CNN)을 제안한다. 국소 부위 패치와 전체 신체 패치 양쪽 모두에서 학습을 통해 관절 검출 및 국소화 정확도를 향상시키며, FLIC 및 LSP 데이터셋에서 최신 기술을 초월하는 성능을 달성하여, DeepPose 및 Tompson 등과 같은 기법들보다 도전적인 경우(큰 국소화 오차를 포함)에서 뛰어난 성능을 보인다.

ABSTRACT

We propose a new learning-based method for estimating 2D human pose from a single image, using Dual-Source Deep Convolutional Neural Networks (DS-CNN). Recently, many methods have been developed to estimate human pose by using pose priors that are estimated from physiologically inspired graphical models or learned from a holistic perspective. In this paper, we propose to integrate both the local (body) part appearance and the holistic view of each local part for more accurate human pose estimation. Specifically, the proposed DS-CNN takes a set of image patches (category-independent object proposals for training and multi-scale sliding windows for testing) as the input and then learns the appearance of each local part by considering their holistic views in the full body. Using DS-CNN, we achieve both joint detection, which determines whether an image patch contains a body joint, and joint localization, which finds the exact location of the joint in the image patch. Finally, we develop an algorithm to combine these joint detection/localization results from all the image patches for estimating the human pose. The experimental results show the effectiveness of the proposed method by comparing to the state-of-the-art human-pose estimation methods based on pose priors that are estimated from physiologically inspired graphical models or learned from a holistic perspective.

연구 동기 및 목표

큰 자세 변화, 가림, 외형 다양성 등에 대응하여 정확한 2D 인간 자세 추정을 달성하기 위해 도전 과제를 해결한다.
국소 부위 외형과 전반적 신체 맥락을 통합하여 관절 검출 및 국소화의 신뢰성을 향상시킨다.
맥락 인식 능력 부족 또는 구분력 있는 국소 특징가 부족한 부위 기반 모델 및 단일 소스 CNN의 한계를 극복한다.
이중 입력 패치를 사용하여 관절 검출 및 국소화를 동시에 수행하는 통합된 딥 러닝 프레임워크를 개발한다.
기존의 CNN 기반 및 그래픽 모델 기반 자세 추정 방법들보다 뛰어난 성능을 입증한다.

제안 방법

학습을 위해 카테고리 독립적 객체 제안(객체 제안)을 국소 부위 패치로, 전체 신체 이미지를 포괄적 맥락 패치로 사용한다.
이중 소스 컨볼루션 신경망(DS-CNN)은 쌍으로 제공되는 입력(국소 부위 패치 p_p 및 해당하는 전체 신체 패치 p_b)에서 학습되며, p_b에는 국소 부위의 이진 마스크가 포함되어 있다.
DS-CNN는 두 가지 작업을 수행한다: 관절 검출(패치가 관절을 포함하고 있는지 여부) 및 관절 국소화(패치 내에서 정확한 관절 좌표 계산).
추론 단계에서는 객체 제안 대신 다중 스케일 슬라이딩 윈도우를 사용하여 조밀한 커버리지 확보 및 불균형 분포 방지.
모든 윈도우의 관절 검출 점수에서 히트맵을 구성하고, 높은 가능성 영역에서 관절 국소화 결과를 가중 평균하여 최종 관절 위치를 정밀화한다.
모델는 Caffe를 사용하여 구현되었으며, 검출 및 국소화를 동시에 최적화하기 위해 엔드 투 엔드로 학습된다.

실험 결과

연구 질문

RQ1국소 외형과 포괄적 신체 맥락을 조합하면 2D 인간 자세 추정 정확도가 향상되는가?
RQ2부위 패치와 전체 신체 패치를 모두 처리하는 이중 소스 CNN 아키텍처가 단일 소스 모델보다 더 나은 관절 검출 및 국소화 성능을 낼 수 있는가?
RQ3포괄적 맥락의 통합이 복잡한 자세나 가림된 관절에 대한 성능에 어떤 영향을 미치는가?
RQ4제안된 방법이 그래픽 모델 기반 또는 단일 브런치 CNN에 의존하는 최신 기술을 초월할 수 있는가?
RQ5각 입력 모odal(국소 부위 vs. 전체 신체)이 최종 검출 성능에 기여하는 정도는 어떠한가?

주요 결과

제안된 DS-CNN 방법은 FLIC 및 LSP 데이터셋 모두에서 뛰어난 성능을 달성하여, Part Detection Joint(PDJ) 지표에서 DeepPose 및 기타 최신 기술을 초월한다.
FLIC 데이터셋에서, 정규화 거리가 0.15 이상(팔꿈치) 또는 0.18 이상(손목)일 경우, Tompson et al.를 제외한 모든 비교 방법보다 성능이 뛰어나다.
LSP 데이터셋에서, 정규화 거리가 클수록 제안된 방법이 Tompson et al.보다 더 뚜렷한 성능 향상을 보이며, 큰 국소화 오차에 대한 강건성을 입증한다.
제거 분석 결과, 이중 소스 입력(p_p 및 p_b)을 사용할 경우 평균 정밀도(mAP)가 가장 높게 나타나, 단일 부위 패치 또는 단일 전체 신체 패치만 사용하는 모델보다 유의미하게 뛰어난 성능을 보였다.
특징 맵의 시각화 결과, DS-CNN가 국소 부위 형태와 전반적 자세 구성(예: 굽은 팔꿈치, 허리)을 조합한 구분력 있는 패턴을 학습하는 것으로 확인되었다.
LSP 데이터셋의 복잡한 자세 및 전체 신체 자세에서 관절이 가려져 있는 경우에도 제안된 방법이 성공적으로 자세를 추정하는 것으로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.