QUICK REVIEW

[논문 리뷰] Deep Learning-Based Human Pose Estimation: A Survey

Ce Zheng, Wenhan Wu|arXiv (Cornell University)|2020. 12. 24.

Human Pose and Action Recognition참고 문헌 276인용 수 84

한 줄 요약

본 고찰은 2D 및 3D 인간 자세 추정에 대한 최신 딥러닝 접근법을 검토하고 방법, 데이터셋, 지표, 응용 분야 및 향후 방향을 요약합니다. 260편이 넘는 논문을 다루고, 성능을 비교하며, 가려짐(occlusion)과 데이터 부족(data scarcity)과 같은 도전과제에 대해 논의합니다.

ABSTRACT

Human pose estimation aims to locate the human body parts and build human body representation (e.g., body skeleton) from input data such as images and videos. It has drawn increasing attention during the past decade and has been utilized in a wide range of applications including human-computer interaction, motion analysis, augmented reality, and virtual reality. Although the recently developed deep learning-based solutions have achieved high performance in human pose estimation, there still remain challenges due to insufficient training data, depth ambiguities, and occlusion. The goal of this survey paper is to provide a comprehensive review of recent deep learning-based solutions for both 2D and 3D pose estimation via a systematic analysis and comparison of these solutions based on their input data and inference procedures. More than 250 research papers since 2014 are covered in this survey. Furthermore, 2D and 3D human pose estimation datasets and evaluation metrics are included. Quantitative performance comparisons of the reviewed methods on popular datasets are summarized and discussed. Finally, the challenges involved, applications, and future research directions are concluded. A regularly updated project page is provided: \url{https://github.com/zczcwh/DL-HPE}

연구 동기 및 목표

최근 딥러닝 기반 2D 및 3D HPE 방법에 대한 체계적인 고찰을 제공한다.
방법을 2D와 3D로 분류한 다음, 2D의 경우 단일 사람 vs 다중 사람으로 더 세분하고, 3D의 경우 단안(모노큘) vs 센서 기반 입력으로 더 세분한다.
2D/3D HPE에서 사용되는 데이터셋과 평가 지표를 요약한다.
최신 연구들을 비교하고 강점과 한계를 논의한다.
응용 분야를 강조하고 향후 연구 방향을 제시한다.

제안 방법

HPE 방법을 2D와 3D로 분류한 다음, 2D의 경우 단일 사람 vs 다중 사람으로 더 세분하고, 3D의 경우 단안(모노큘) vs 센서 기반 입력으로 더 세분한다.
2D 단일 인물 자세 추정에서 회귀 기반과 히트맵 기반 접근법을 대조한다.
2D 다중 인물 자세 추정을 위한 상향식(top-down) 및 하향식(bottom-up) 파이프라인을 설명한다.
단안 RGB(단일 시점 및 다중 시점, 해골만 추출 vs 메시 회복) 및 기타 센서로부터의 3D HPE를 요약한다.
데이터셋 및 평가 지표 요약을 제공하고 질적/양적 방법 비교를 수행한다.
HPE의 응용 및 향후 방향에 대해 논의한다.

실험 결과

연구 질문

RQ12D 및 3D 인간 자세 추정에 대한 주요 딥러닝 접근법은 무엇이며 어떻게 구성되어 있는가?
RQ22D HPE 방법은 단일 인물 vs 다중 인물, 상향식 vs 하향식 프레임워크에서 어떻게 비교되는가?
RQ32D 및 3D HPE에 사용되는 데이터 소스, 데이터셋 및 평가 지표는 무엇이며 방법은 그것들에서 어떻게 수행되는가?
RQ4현재의 HPE 방법을 제한하는 도전 과제(예: 가려짐, 데이터 부족, 깊이 모호성)는 무엇이며 어떤 방향이 이를 해결할 수 있는가?
RQ5DL 기반 HPE의 두드러진 응용 분야는 무엇이며 식별된 향후 연구 방향은 무엇인가?

주요 결과

딥러닝은 2D HPE를 고전적 방법보다 비약적으로 향상시켰고, 히트맵과 회귀와 같은 접근법이 분야를 형성했다.
HRNet과 그 변형 및 트랜스포머 기반 모델이 정확한 키포인트 추정을 위해 널리 채택되었다.
다중 인물 2D HPE에서 가려짐(occlusion), 절단, 계산 효율성은 여전히 중심 과제이다.
단안 RGB로부터의 3D HPE는 잘 정의되지 않고 데이터-허가적이며, 서로 다른 데이터셋 간 일반화가 주목되는 문제이다; 다중 시점 및 센서 융합은 깊이의 모호성을 완화할 수 있다.
2D/3D HPE를 평가하기 위한 다양한 데이터셋과 지표가 존재하여 방법들에 대한 광범위한 비교 분석이 가능하다.
이 고찰은 AR/VR, 감시, 의료 등 다양한 응용 분야를 다루고 향후 연구 방향을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.