QUICK REVIEW

[論文レビュー] Deep Learning-Based Human Pose Estimation: A Survey

Ce Zheng, Wenhan Wu|arXiv (Cornell University)|Dec 24, 2020

Human Pose and Action Recognition参考文献 276被引用数 84

ひとこと要約

この調査は、2Dおよび3Dヒト姿勢推定における最近の深層学習アプローチをレビューし、方法、データセット、指標、応用、今後の方向性を要約する。260件以上の論文を取り上げ、性能を比較し、遮蔽（オクルージョン）やデータ不足といった課題について議論する。

ABSTRACT

Human pose estimation aims to locate the human body parts and build human body representation (e.g., body skeleton) from input data such as images and videos. It has drawn increasing attention during the past decade and has been utilized in a wide range of applications including human-computer interaction, motion analysis, augmented reality, and virtual reality. Although the recently developed deep learning-based solutions have achieved high performance in human pose estimation, there still remain challenges due to insufficient training data, depth ambiguities, and occlusion. The goal of this survey paper is to provide a comprehensive review of recent deep learning-based solutions for both 2D and 3D pose estimation via a systematic analysis and comparison of these solutions based on their input data and inference procedures. More than 250 research papers since 2014 are covered in this survey. Furthermore, 2D and 3D human pose estimation datasets and evaluation metrics are included. Quantitative performance comparisons of the reviewed methods on popular datasets are summarized and discussed. Finally, the challenges involved, applications, and future research directions are concluded. A regularly updated project page is provided: \url{https://github.com/zczcwh/DL-HPE}

研究の動機と目的

最近の深層学習ベースの2Dおよび3D HPE手法の体系的レビューを提供する。
手法を2Dと3D、単一視点対多視点、入力源別に分類する。
2D/3D HPEで使用されるデータセットと評価指標を要約する。
最先端アプローチを比較し、それらの長所と限界を議論する。
応用を強調し、今後の研究方向を概説する。

提案手法

HPE手法を2Dと3Dに分類し、さらに2Dは単一人物対多人数、3Dは単眼視対センサー入力で分類する。
2D単一人物の姿勢推定における回帰ベースとヒートマップベースのアプローチを対比する。
2Dの多人数姿勢推定のトップダウンとボトムアップのパイプラインを説明する。
単眼RGBからの3D HPE（単一視点と多視点、スケルトンのみ対メッシュ復元）および他のセンサーからの3D HPEを要約する。
データセットと評価指標の要約を提供し、定性的/定量的な手法比較を行う。
HPEにおける応用と今後の方向性について論じる。

実験結果

リサーチクエスチョン

RQ12Dおよび3D人間姿勢推定の主な深層学習アプローチは何で、それらはどのように整理されているか。
RQ22D HPE手法は単一人物対多人数、およびトップダウン対ボトムアップのフレームワーク間でどのように比較できるか。
RQ32Dおよび3D HPEに用いられるデータソース、データセット、評価指標は何で、手法はそれらでどの程度の性能を示しているか。
RQ4現在のHPE手法を制限する課題（例：遮蔽、データ不足、深度の曖昧さ）と、それらに対処する方向は何か。
RQ5DLベースHPEの顕著な応用と特定された今後の研究方向は何か。

主な発見

深層学習は、ヒートマップや回帰といったアプローチを用いて、古典的方法に比べて2D HPEを劇的に改善した。
HRNetとその派生、そしてトランスフォーマー系列モデルが、正確なキーポイント推定で広く採用されている。
遮蔽、切り捨て、計算効率は、多人数の2D HPEの中心的な課題であり続ける。
単眼RGBからの3D HPEは ill-posed でデータを大量に要し、データセット間の一般化が顕著な問題。多視点とセンサーフュージョンが深度の曖昧さを緩和できる。
2D/3D HPEの評価のためのデータセットと指標が豊富に存在し、手法の比較分析を広範に可能にする。
本調査はAR/VR、監視、ヘルスケアなどの応用を扱い、今後の研究指針を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。