[논문 리뷰] PoseRAC: Pose Saliency Transformer for Repetitive Action Counting
PoseRAC은 두 가지 두드러진 자세를 사용해 반복 행동을 세는 Pose Saliency Representation을 도입하고, 경량의 자세 수준 Transformer로 최첨단 결과를 달성하며 더 빠르고 CPU 친화적입니다.
This paper presents a significant contribution to the field of repetitive action counting through the introduction of a new approach called Pose Saliency Representation. The proposed method efficiently represents each action using only two salient poses instead of redundant frames, which significantly reduces the computational cost while improving the performance. Moreover, we introduce a pose-level method, PoseRAC, which is based on this representation and achieves state-of-the-art performance on two new version datasets by using Pose Saliency Annotation to annotate salient poses for training. Our lightweight model is highly efficient, requiring only 20 minutes for training on a GPU, and infers nearly 10x faster compared to previous methods. In addition, our approach achieves a substantial improvement over the previous state-of-the-art TransRAC, achieving an OBO metric of 0.56 compared to 0.29 of TransRAC. The code and new dataset are available at https://github.com/MiracleDance/PoseRAC for further research and experimentation, making our proposed approach highly accessible to the research community.
연구 동기 및 목표
- 전체 동영상 맥락이 아닌 인간 자세 정보를 활용하여 반복 행동을 효율적이고 정확하게 계산하도록 동기를 부여합니다.
- 각 동작을 두 가지 두드러진 자세로 표현하기 위한 Pose Saliency Representation (PSR)을 제안하여 정확도를 유지하면서 계산량을 줄입니다.
- 가벼운 아키텍처로 두드러진 자세를 동작 클래스에 매핑하고 반복 횟수를 세는 자세 수준 모델(PoseRAC)을 개발합니다.
- 데이터 세트를 Pose Saliency Annotation (PSA)로 확장하여 자세 수준 모델을 학습시키고 비디오 수준 방법과의 공정한 평가를 가능하게 합니다.
제안 방법
- 가벼운 자세 추정기(BlazePose)를 사용하여 프레임별 핵심 포인트를 추출합니다.
- 프레임별 자세 점을 간단한 MLP로 임베딩하여 다층 Transformer Encoder가 처리하는 시퀀스로 만듭니다.
- 인코딩된 자세 특징으로부터 프레임별 클래스 확률을 출력하는 Pose Mapping을 학습합니다.
- 한 동작 클래스당 두 가지 두드러진 자세의 순차적 발생을 감지하여 반복을 세는 가벼운 Action-trigger 모듈을 적용합니다.
- 구분 가능한 자세 임베딩을 강제하기 위해 이진 교차 엔트로피 손실과 포즈 트리플렛 손실(Cosine 유사도 기반)을 함께 사용하여 학습합니다.
실험 결과
연구 질문
- RQ1두 가지 두드러진 자세(PSR)로 동작을 표현하는 것이 비디오 수준 방법에 비해 정확도와 효율성을 향상시키나요?
- RQ2PoseRAC가 자세 주석 데이터셋 RepCount-pose 및 UCFRep-pose에서 최첨단 Off-By-One(OBO) 및 MAE 지표를 달성할 수 있나요?
- RQ3Pose Saliency Annotation이 데이터셋 간 학습 및 일반화에 어떤 영향을 미치나요?
- RQ4Pose 추정 선택과 거리 학습이 최종 성능과 속도에 어떤 영향을 미치나요?
- RQ5제안된 파이프라인이 CPU에서 학습하고 이전 방법보다 추론 속도가 충분히 빠른가요?
주요 결과
| Methods | RepCount (-pose) MAE | RepCount (-pose) OBO | UCFRep (-pose) MAE | UCFRep (-pose) OBO | Time (ms) |
|---|---|---|---|---|---|
| RepNet | 0.995 | 0.013 | 0.981 | 0.018 | 100 |
| X3D | 0.911 | 0.106 | 0.982 | 0.331 | 220 |
| Zhang et al. | 0.879 | 0.155 | 0.762 | 0.412 | 225 |
| TANet | 0.662 | 0.099 | 0.892 | 0.129 | 187 |
| VideoSwinTransformer | 0.576 | 0.132 | 0.033 | 0.149 | 149 |
| Huang et al. | 0.527 | 0.159 | 1.035 | 0.015 | 156 |
| TransRAC | 0.443 | 0.291 | 0.581 | 0.329 | 200 |
| PoseRAC (Ours) | 0.236 | 0.560 | 0.312 | 0.452 | 20 |
- PoseRAC는 RepCount-pose에서 최첨단 OBO 0.560, UCFRep-pose에서 0.452를 달성하여 기존 방법들을 능가합니다.
- PoseRAC는 보고된 설정에서 비디오당 추론 시간이 약 20 ms로 훨씬 빠르고, GPU에서의 학습은 약 20분 정도 걸립니다.
- Pose Saliency Annotation 및 Pose Saliency Representation을 사용하면 동작 클래스당 두 가지 두드러진 자세로 효과적인 자세 수준 학습이 가능합니다.
- BlazePose를 자세 추정기로 사용하면 깊이 정보 및 속도 이점으로 VitPose보다 더 나은 MAE와 OBO를 제공합니다.
- Metric Learning(포즈 트리플렛 손실)이 두드러진 자세의 최적화 및 클래스 구분을 개선하며, α≈0.01이 최상의 결과를 제공합니다.
- PoseRAC는 TransRAC를 능가하면서도 훨씬 가벼운 모델을 사용하고 상당한 속도 향상을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.