[論文レビュー] ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
ViTPose は、プレーンなビジョン・トランスフォーマーが、人間のポーズ推定の強力でスケーラブルなベースラインとして、軽量デコーダとともに機能し、MS COCO で最先端の結果を達成し、柔軟な訓練と転移学習を可能にする。
Although no specific domain knowledge is considered in the design, plain vision transformers have shown excellent performance in visual recognition tasks. However, little effort has been made to reveal the potential of such simple structures for pose estimation tasks. In this paper, we show the surprisingly good capabilities of plain vision transformers for pose estimation from various aspects, namely simplicity in model structure, scalability in model size, flexibility in training paradigm, and transferability of knowledge between models, through a simple baseline model called ViTPose. Specifically, ViTPose employs plain and non-hierarchical vision transformers as backbones to extract features for a given person instance and a lightweight decoder for pose estimation. It can be scaled up from 100M to 1B parameters by taking the advantages of the scalable model capacity and high parallelism of transformers, setting a new Pareto front between throughput and performance. Besides, ViTPose is very flexible regarding the attention type, input resolution, pre-training and finetuning strategy, as well as dealing with multiple pose tasks. We also empirically demonstrate that the knowledge of large ViTPose models can be easily transferred to small ones via a simple knowledge token. Experimental results show that our basic ViTPose model outperforms representative methods on the challenging MS COCO Keypoint Detection benchmark, while the largest model sets a new state-of-the-art. The code and models are available at https://github.com/ViTAE-Transformer/ViTPose.
研究の動機と目的
- 素案となるバックボーンの専門的なドメイン特化を必要とせず、ポーズ推定のプレーンな vision transformers の調査を動機づける。
- 軽量デコーダを備えた簡潔で効果的な ViTPose アーキテクチャを示す。
- ViTPose のスケーラビリティ、訓練の柔軟性、データセットおよび事前学習 regime 全体にわたる転移学習の可能性を示す。
- MS COCO Keypoint データセットでの強力なパフォーマンス基準を確立し、モデルサイズ、速度、精度のトレードオフを分析する。
提案手法
- マスク付き画像モデリング(MAE)で事前学習したプレーンで階層を持たない Vision Transformer バックボーンを用いて、人物インスタンスの特徴を抽出する。
- 特徴をアップサンプリングし、2つのデコーダ(古典的な 2-デコンブブロックまたはより単純なアップサンプリング + 3x3 コンボ)を介してキーポイントのヒートマップを回帰する軽量デコーダを追加する。
- バックボーンサイズ(ViT-B/L/H および ViTAE-G)と特徴次元を変えることでスケーラビリティを探る。
- ImageNet-1K、COCO、AI Challenger、または姿勢特化データを MAE で事前学習することによりデータの柔軟性を探る。
- 正確性とメモリ使用量のバランスをとるために、全体・ウィンドウ・シフトウィンドウ・プーリング戦略による注意機構のトレードオフを検討する。
- 出力蒸留と新しいトークンベース蒸留法を用いて、大規模 ViTPose モデルから小規模 ViTPose モデルへの知識転移を実証する。
実験結果
リサーチクエスチョン
- RQ1CNN ベースのバックボーンを持たない、軽量デコーダを備えたプレーンな vision transformer バックボーンで COCO における競争力のある、あるいは最先端のポーズ推定を達成できるか。
- RQ2モデルサイズ、入力/解像度、注意機構が ViTPose の性能とスループットにどのような影響を与えるか。
- RQ3事前学習データとファインチューニング戦略が ViTPose のポーズ推定性能に与える影響はどのようか。
- RQ4大規模 ViTPose モデルから小規模モデルへの知識転移を、トークンベース蒸留で効果的に実現できるか。
主な発見
- ViTPose は、最大モデルの ViTPose-G と MS COCO + AI Challenger データで MS COCO test-dev において 80.9 AP を達成する。
- ViTPose はスケーラビリティの強さを示し、モデルサイズの増加(ViT-B から ViT-H から ViTAE-G へ)とともに性能が一貫して向上する。
- 強力なビジョン・トランスフォーマー・バックボーンを使用した場合、単純なデコーダでもより複雑なデコーダの性能に匹敵できる(0.3 AP 未満の低下)。
- 下流のポーズデータ(COCO + AI Challenger)での事前学習は、ImageNet-1K 事前学習と同等に効果的であり、データ効率が同等またはより良い場合がある。
- トークンベース蒸留は、大規模から小規模の ViTPose モデルへの知識移転に対して測定可能な利益をもたらす(例: 0.2–0.5 AP の利得)。
- 複数データセット訓練により ViTPose はさらなる改善を達成し得る(例:ViTPose-B が 75.8 AP から 77.1 APへ)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。