[論文レビュー] PoseRAC: Pose Saliency Transformer for Repetitive Action Counting
PoseRACはPose Saliency Representationを導入し、各動作につき2つの顕著なポーズを用いて反復動作をカウントする。軽量なポーズレベルTransformersで実現し、従来より高速・CPUフレンドリーな最先端の結果を達成。
This paper presents a significant contribution to the field of repetitive action counting through the introduction of a new approach called Pose Saliency Representation. The proposed method efficiently represents each action using only two salient poses instead of redundant frames, which significantly reduces the computational cost while improving the performance. Moreover, we introduce a pose-level method, PoseRAC, which is based on this representation and achieves state-of-the-art performance on two new version datasets by using Pose Saliency Annotation to annotate salient poses for training. Our lightweight model is highly efficient, requiring only 20 minutes for training on a GPU, and infers nearly 10x faster compared to previous methods. In addition, our approach achieves a substantial improvement over the previous state-of-the-art TransRAC, achieving an OBO metric of 0.56 compared to 0.29 of TransRAC. The code and new dataset are available at https://github.com/MiracleDance/PoseRAC for further research and experimentation, making our proposed approach highly accessible to the research community.
研究の動機と目的
- 人間のポーズ情報を活用することで、全動画コンテキストに頼らず、効率的で正確な反復動作のカウントを目的とする。
- 各動作を二つの顕著なポーズで表現するPose Saliency Representation (PSR)を提案し、計算量を削減しつつ精度を維持する。
- 顕著なポーズをマッピングして動作クラスを出力し、軽量なアーキテクチャで反復をカウントするPoseRAC等のポーズレベルモデルを開発する。
- Pose Saliency Annotation (PSA)を用いてデータセットを拡張し、ポーズレベルモデルの訓練とビデオレベル手法との公正な評価を可能にする。
提案手法
- 軽量なポーズ推定器(BlazePose)を用いて各フレームのキーポイントを抽出する。
- フレームごとのポーズポイントを単純なMLPで埋め込み、マルチレイヤーTransformers Encoderで処理されるシーケンスに変換する。
- エンコードされたポーズ特徴から各フレームのクラス確率を出力するPose Mappingを学習する。
- 軽量なAction-triggerモジュールを適用して、各動作クラスにつき二つの顕著なポーズの連続出現を検出することで反復をカウントする。
- discriminativeなポーズ埋め込みを強化するために、Binary Cross Entropy LossとPose Triplet Loss(コサイン類似度ベース)を組み合わせて訓練する。
実験結果
リサーチクエスチョン
- RQ1PSRとして動作を二つの顕著なポーズで表現することは、ビデオレベル手法と比較してカウントの精度と効率を改善するか?
- RQ2PoseRACはRepCount-poseおよびUCFRep-poseのポーズ注釈付きデータセットで最先端のOff-By-One(OBO)とMAE指標を達成できるか?
- RQ3Pose Saliency Annotationは訓練とドメイン間一般化にどう影響するか?
- RQ4Pose Estimationの選択とメトリック学習が最終的な性能と速度にどのような影響を与えるか?
- RQ5提案されたパイプラインはCPUでの訓練と prior methods よりも高速な推論を実現するほど軽量か?
主な発見
| Methods | RepCount (-pose) MAE | RepCount (-pose) OBO | UCFRep (-pose) MAE | UCFRep (-pose) OBO | Time (ms) |
|---|---|---|---|---|---|
| RepNet | 0.995 | 0.013 | 0.981 | 0.018 | 100 |
| X3D | 0.911 | 0.106 | 0.982 | 0.331 | 220 |
| Zhang et al. | 0.879 | 0.155 | 0.762 | 0.412 | 225 |
| TANet | 0.662 | 0.099 | 0.892 | 0.129 | 187 |
| VideoSwinTransformer | 0.576 | 0.132 | 0.033 | 0.149 | 149 |
| Huang et al. | 0.527 | 0.159 | 1.035 | 0.015 | 156 |
| TransRAC | 0.443 | 0.291 | 0.581 | 0.329 | 200 |
| PoseRAC (Ours) | 0.236 | 0.560 | 0.312 | 0.452 | 20 |
- PoseRACはRepCount-poseでOBO 0.560、UCFRep-poseで0.452という最先端を達成し、従来手法を上回る。
- PoseRACは推論時間が約20 ms/動画程度と報告された設定で高速、GPU訓練は約20分程度。
- Pose Saliency AnnotationとPose Saliency Representationを用いることで、動作クラスごとに二つの顕著なポーズを用いたポーズレベル学習が効果的に可能。
- BlazePoseをポーズ推定器として用いると、深度情報と速度の利点からVitPoseよりMAEとOBOが改善される。
- Metric Learning(Pose Triplet Loss)は最適化と顕著なポーズのクラス分離を改善し、α≈0.01が最良の結果を提供。
- PoseRACはより軽量なモデルを使用しつつTransRACを上回る性能と大幅な速度向上を実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。