[論文レビュー] TFPose: Direct Human Pose Estimation with Transformers
TFPoseは2D人間ポーズ推定をシーケンス予測タスクとして再定義し、トランスフォーマを直接キーポイント座標へ回帰させ、回帰ベース手法の中で最先端の結果を達成し、ヒートマップベース手法と競合する性能。
We propose a human pose estimation framework that solves the task in the regression-based fashion. Unlike previous regression-based methods, which often fall behind those state-of-the-art methods, we formulate the pose estimation task into a sequence prediction problem that can effectively be solved by transformers. Our framework is simple and direct, bypassing the drawbacks of the heatmap-based pose estimation. Moreover, with the attention mechanism in transformers, our proposed framework is able to adaptively attend to the features most relevant to the target keypoints, which largely overcomes the feature misalignment issue of previous regression-based methods and considerably improves the performance. Importantly, our framework can inherently take advantages of the structured relationship between keypoints. Experiments on the MS-COCO and MPII datasets demonstrate that our method can significantly improve the state-of-the-art of regression-based pose estimation and perform comparably with the best heatmap-based pose estimation methods.
研究の動機と目的
- ヒートマップベースの手法との回帰ベースのポーズ推定のギャップを埋める。
- キーポイント間の空間-時間依存性をモデル化するためにトランスフォーマを活用する。
- ヒートマップ後処理と量子化の制約を排除する。
- ポーズ推定のエンドツーエンド微分可能な学習を可能にする。
提案手法
- 単一人物のポーズ推定をK長のキーイント予測シーケンスとして定式化する。
- CNNバックボーンを用いて多段階特徴を抽出し、次にトランスフォーマーエンコーダと融合する。
- 学習可能なキーポイントクエリを備えたトランスフォーマー・デコーダを展開し、K個の2D座標を予測する。
- キーポイント間の構造的関係を捉えるためにクエリ間アテンションを組み込む。
- デコーダ層全体でのL1回帰損失と補助的ヒートマップ損失の組み合わせで訓練し、収束を加速する。
- 後続のデコーダ層で改善量 Delta y_d を予測して逐次的な改善を図る。
実験結果
リサーチクエスチョン
- RQ1トランスフォーマーを基盤とする回帰フレームワークは従来の回帰ベースのポーズ手法を凌駕できるのか?
- RQ2クエリ間アテンションを導入することでキーポイント間の構造をモデル化できるのか?
- RQ3補助的ヒートマップ監督はトランスフォーマーベースのポーズモデルの収束と精度にどのような影響を与えるのか?
- RQ4COCO MPIIにおけるエンコーダ/デコーダの構成とポーズ推定精度のトレードオフはどのようになるのか?
- RQ5トランスフォーマーを用いた回帰ベースの手法は標準ベンチマークでヒートマップベースの最先端にどれくらい近づくのか?
主な発見
| Model | Backbone | Input Size | GFLOPs | AP(OKS) | AP^kp_50 | AP^kp_75 | AP^kp_M | AP^kp_L |
|---|---|---|---|---|---|---|---|---|
| DeepPose | ResNet-101 | 256×192 | 7.69 | 56.0 | 81.8 | 61.8 | 49.8 | 67.0 |
| DeepPose | ResNet-152 | 256×192 | 11.34 | 58.3 | 87.6 | 66.7 | 56.8 | 64.9 |
| 8-stage Hourglass | - | 256×192 | 19.5 | 66.9 | 81.0 | 70.0 | 63.0 | 67.0 |
| 8-stage Hourglass | - | 256×256 | 25.9 | 67.1 | 82.0 | 71.0 | 66.0 | 68.0 |
| CPN | ResNet-50 | 256×192 | 6.2 | 68.6 | 87.0 | 70.0 | 57.4 | 71.1 |
| CPN | ResNet-50 | 384×288 | 13.9 | 70.6 (71.6) | 91.4 | 80.0 | 68.7 | 77.2 |
| SimpleBaseline | ResNet-50 | 256×192 | 8.9 | 70.4 | 90.9 | 77.9 | 66.8 | 75.8 |
| Ours (N_D=4) | ResNet-50 | 256×192 | 7.68 | 70.5 | 90.4 | 78.7 | 67.6 | 76.8 |
| Ours (N_D=6) | ResNet-50 | 256×192 | 9.2 | 71.0 | 90.5 | 79.0 | 68.1 | 77.0 |
| Ours (N_D=6) | ResNet-50 | 384×288 | 20.4 | 72.2 | 90.9 | 80.1 | 69.1 | 78.8 |
- TFPoseは回帰ベースのポーズ推定を大幅に向上させ、COCOおよびMPIIで従来の回帰法を上回る。
- クエリ間アテンションの導入により測定可能なAPの向上をもたらす(COCO val2017で約1.3% AP)。
- 256チャンネルのTransformerエンコーダ入力は128チャンネル構成を上回るAPを示す。
- デコーダの深さを増やすと3層目まで改善をもたらしその後飽和する; 最良の結果は6デコーダで報告。
- 補助的ヒートマップ損失は収束を加速し、APを約2.3ポイント向上させる。
- ResNet-50バックボーンを用いたTFPoseはCOCO test-devでヒートマップベース手法に対して競合する結果をGFLOPsが低い状態で達成(例: configに応じて70.9–72.2 AP)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。