[論文レビュー] OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
OpenPose は Part Affinity Fields (PAFs) を用いて体の部位を関連付けるリアルタイムのボトムアップ方式による2D多人数姿勢推定法を提示し、体、足、手、顔のキーポイント用のオープンソースライブラリを公開します。
Realtime multi-person 2D pose estimation is a key component in enabling machines to have an understanding of people in images and videos. In this work, we present a realtime approach to detect the 2D pose of multiple people in an image. The proposed method uses a nonparametric representation, which we refer to as Part Affinity Fields (PAFs), to learn to associate body parts with individuals in the image. This bottom-up system achieves high accuracy and realtime performance, regardless of the number of people in the image. In previous work, PAFs and body part location estimation were refined simultaneously across training stages. We demonstrate that a PAF-only refinement rather than both PAF and body part location refinement results in a substantial increase in both runtime performance and accuracy. We also present the first combined body and foot keypoint detector, based on an internal annotated foot dataset that we have publicly released. We show that the combined detector not only reduces the inference time compared to running them sequentially, but also maintains the accuracy of each component individually. This work has culminated in the release of OpenPose, the first open-source realtime system for multi-person 2D pose detection, including body, foot, hand, and facial keypoints.
研究の動機と目的
- 画像や動画中の人々をリアルタイムで理解することを促進する、正確な多人数2D姿勢推定。
- 未知の人数、遮蔽、人数に応じた実行時間のスケーリングといった課題に対処する。
- 検出とアソシエーションを結びつけるボトムアップ表現として Part Affinity Fields (PAFs) を導入する。
- 体、足、手、顔のキーポイントを扱うオープンソースシステムとして OpenPose を公開する。
提案手法
- CNN がボディ部位の信頼度マップと肢の向きをエンコードする PAFs を予測する。
- 中間監督を伴うマルチステージネットワークが学習を強化する。PAFの改良は重要だが、ボディ部位の改良はそれほど重要ではない。
- 7x7 の畳み込みを3つの3x3層に置換し、受容野を保持して速度を向上させる(DenseNetに似た結合)。
- PAFs 上での貪欲パーシングを用い、線積分肢スコアと二部割り当てマッチングで複数人の体姿勢を組み立てる。
- 公開された足データセットを用いて足のキーポイントへ拡張し、体+足の検出を速度や精度を犠牲にせず実証する。
実験結果
リサーチクエスチョン
- RQ1Part Affinity Fields は人体検出器に過度に依存せず、正確でリアルタイムなボトムアップ式多人数姿勢解析を可能にするか?
- RQ2PAFの改良とボディパーツ信頼度マップの改良が、多人数解析の精度と速度にどう影響するか?
- RQ3体と足のキーポイント検出を組み合わせることで姿勢推定の性能と効率が向上するか?
- RQ4標準ベンチマークにおける実行時間と精度で、OpenPoseは既存手法(例:Mask R-CNN、Alpha-Pose)とどう比較されるか?
主な発見
- ベンチマーク全体で競争力のある精度を持つリアルタイムの多人数2D姿勢推定を達成。
- PAF の改良は精度にとって極めて重要だが、ボディ部位信頼度マップの改良はあまり有益でない。
- ネットワーク深度を増やすことでより速く、より正確な結果を得られる(セクションで ~200% 速度と ~7% 精度向上が報告される)。
- 注釈付きの足データセットを導入し、体+足キーポイント検出器の組み合わせが体の精度を維持しつつ推論時間を削減することを示す。
- OpenPose は体、足、手、顔のキーポイント(最大135個)のための初のオープンソースリアルタイムシステムであり、 GTX 1080 Ti で約22 FPS で動作します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。