[論文レビュー] YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss
YOLO-poseはヒートマップを使わないエンドツーエンド学習可能なアプローチで、単一のフォワードパスで複数の人と彼らの2Dポーズを検出し、ポーズ評価を最適化するOKS損失を使用します。テスト時拡張なしでCOCO検証データセット/テストデブにおいて最先端のAP50を達成します。
We introduce YOLO-pose, a novel heatmap-free approach for joint detection, and 2D multi-person pose estimation in an image based on the popular YOLO object detection framework. Existing heatmap based two-stage approaches are sub-optimal as they are not end-to-end trainable and training relies on a surrogate L1 loss that is not equivalent to maximizing the evaluation metric, i.e. Object Keypoint Similarity (OKS). Our framework allows us to train the model end-to-end and optimize the OKS metric itself. The proposed model learns to jointly detect bounding boxes for multiple persons and their corresponding 2D poses in a single forward pass and thus bringing in the best of both top-down and bottom-up approaches. Proposed approach doesn't require the postprocessing of bottom-up approaches to group detected keypoints into a skeleton as each bounding box has an associated pose, resulting in an inherent grouping of the keypoints. Unlike top-down approaches, multiple forward passes are done away with since all persons are localized along with their pose in a single inference. YOLO-pose achieves new state-of-the-art results on COCO validation (90.2% AP50) and test-dev set (90.3% AP50), surpassing all existing bottom-up approaches in a single forward pass without flip test, multi-scale testing, or any other test time augmentation. All experiments and results reported in this paper are without any test time augmentation, unlike traditional approaches that use flip-test and multi-scale testing to boost performance. Our training codes will be made publicly available at https://github.com/TexasInstruments/edgeai-yolov5 and https://github.com/TexasInstruments/edgeai-yolox
研究の動機と目的
- ヒートマップベースの2段階ポーズ推定の代替として、ヒートマップなしのエンドツーエンド学習可能な手法を動機づける。
- 単一のフォワードパスで複数人の検出ボックス推定と2Dポーズ推定を組み合わせる。
- 代替損失ではなく直接Object Keypoint Similarity (OKS)を最適化する。
- ボトムアップ法に必要な後処理のグルーピングを排除し、マルチパス推論を回避する。
提案手法
- YOLOフレームワークを、同時に人物検出とポーズ推定の基盤として用いる。
- 評価指標を直接最適化するためにObject Keypoint Similarity (OKS)損失を採用する。
- 検出された各人物に対して関連付けられた2Dポーズを持つ境界ボックスを単一のフォワードパスで出力する。
- ヒートマップ、後処理のグルーピング、およびテスト時拡張を回避して競争力のある精度を達成する。
- 反転テストやマルチスケールテスト時拡張を必要とせず、エンドツーエンドで訓練する。
実験結果
リサーチクエスチョン
- RQ1ヒートマップなしのエンドツーエンド学習可能なモデルは、OKSを最適化目的として用い、同時に人物を検出しポーズを推定できるか?
- RQ2YOLOベースの検出器にポーズ推定を組み込むことで、後処理と複数のフォワードパスを回避して効率が向上するか?
- RQ3テスト時拡張なしで、COCOの検証およびtest-devにおけるAP50の観点でYOLO-Poseはどの程度の性能を示すか?
- RQ4ポーズ推定タスクで単一のフォワードパスでもボトムアップ法を凌ぐことが可能か?
主な発見
- テスト時拡張なしでCOCO検証データ(90.2% AP50)およびtest-dev (90.3% AP50)で最先端の結果を達成。
- 反転テスト、マルチスケールテスト、その他のテスト時拡張を用いず、単一フォワードパスで既存のボトムアップ手法を上回る。
- OKSを直接最適化してエンドツーエンドの訓練を提供し、代理のL1損失を避ける。
- 各境界ボックスに関連するポーズがあるため、キーポイントをスケルトンに後処理でグルーピングする必要を排除。
- 一部のトップダウン手法で必要となる複数回のフォワードパスを回避し、検出とポーズ推定を1つの推論ステップに統合する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。