[논문 리뷰] AG-EgoPose: Leveraging Action-Guided Motion and Kinematic Joint Encoding for Egocentric 3D Pose Estimation
AG-EgoPose는 학습 가능한 관절 토큰을 가진 트랜스포머 디코더를 통해 2D 관절 열지도와 행동 가이드 모션 특징을 융합하는 이중 스트림 egocentric 3D 포즈 추정기를 도입하여 EgoPW 및 SceneEgo 데이터셋에서 최첨단 성능을 달성한다.
Egocentric 3D human pose estimation remains challenging due to severe perspective distortion, limited body visibility, and complex camera motion inherent in first-person viewpoints. Existing methods typically rely on single-frame analysis or limited temporal fusion, which fails to effectively leverage the rich motion context available in egocentric videos. We introduce AG-EgoPose, a novel dual-stream framework that integrates short- and long-range motion context with fine-grained spatial cues for robust pose estimation from fisheye camera input. Our framework features two parallel streams: A spatial stream uses a weight-sharing ResNet-18 encoder-decoder to generate 2D joint heatmaps and corresponding joint-specific spatial feature tokens. Simultaneously, a temporal stream uses a ResNet-50 backbone to extract visual features, which are then processed by an action recognition backbone to capture the motion dynamics. These complementary representations are fused and refined in a transformer decoder with learnable joint tokens, which allows for the joint-level integration of spatial and temporal evidence while maintaining anatomical constraints. Experiments on real-world datasets demonstrate that AG-EgoPose achieves state-of-the-art performance in both quantitative and qualitative metrics. Code is available at: https://github.com/Mushfiq5647/AG-EgoPose.
연구 동기 및 목표
- 거친 원근 왜곡과 가림이 심한 자가시점 어안 렌즈 영상에서 견고한 3D 포즈 추정을 동기화한다.
- 짧은- 및 긴-거리 모션 컨텍스트를 행동 정보 priors로 활용해 포즈 모호성을 해결한다.
- 공간 정밀도를 보존하면서 시간적 다이나믹스를 통합하는 관절 수준 융합 메커니즘을 개발한다.
- 해부학적으로 일관된 3D 포즈 회귀를 위한 학습 가능한 관절 토큰을 가진 트랜스포머 기반 디코더를 제안한다.
- EgoPW 및 SceneEgo 벤치마크에서 최첨단 성능을 시연한다.
제안 방법
- 공간 열지도 스트림과 모션 기반 시간 스트림의 이중 스트림 구조를 채택한다.
- 공간 스트림은 가중치 공유 ResNet-18 인코더-디코더를 사용하여 2D 관절 열지도와 각 관절 임베딩을 생성한다.
- 모션 스트림은 Short- 및 Long-range 모션 다이내믹스를 포착하기 위해 ResNet-50 백본과 ActionFormer 기반의 시간 인코더를 사용한다.
- 열지도는 각 관절 토큰으로 임베딩되고 모션 특징과 관절 수준 메모리에 융합된다.
- 학습 가능한 관절 토큰을 갖춘 트랜스포머 디코더가 메모리에 주의를 기울여 3D 관절 위치를 회귀한다.
- 손실은 해골 길이 및 뼈 방향 규제와 함께 관절 위치 오차를 결합하여 해부학적 타당성을 강제한다.
실험 결과
연구 질문
- RQ1짧은- 및 긴-거리 시간 맥락이 가림 및 시점 왜곡 하에서 자가시점 3D 포즈 추정에 어떻게 기여할 수 있는가?
- RQ2행동 가이드 모션 특징을 공간 열지도 증거와 효과적으로 융합해 3D 포즈 정확성을 향상시킬 수 있는가?
- RQ3관절 토큰 기반 트랜스포머 디코더가 공간 및 시간 신호의 로버스트한 관절별 융합을 가능하게 하는가?
주요 결과
| 방법 | MPJPE (mm) | PA-MPJPE (mm) | 비고 |
|---|---|---|---|
| Mo2Cap2 | 200.3 | 121.2 | < EgoScene comparison on SceneEgo table; not the EgoPW primary PA-MPJPE table> |
| xR-EgoPose | 241.3 | 133.9 | SceneEgo results from Table 2 |
| EgoPW | 189.6 | 105.3 | Baseline EgoPW result (MPJPE/PA-MPJPE) |
| SceneEgo | 118.5 | 92.7 | State-of-the-art before Ours on SceneEgo |
| Ours | 104.0 | 76.2 | Ours on SceneEgo (MPJPE/PA-MPJPE) |
- EgoPW에서 PA-MPJPE가 84.2 mm에서 76.7 mm로 개선되어 표에서 최첨단에 도달했다.
- SceneEgo에서 MPJPE/PA-MPJPE가 각각 104.0 mm와 76.2 mm로 기존 방법을 능가했다.
- 다른 데이터셋으로의 SceneEgo 이식은 104.0/76.2 mm(MPJPE/PA-MPJPE)으로, 이전 최댓값 118.5/92.7 mm 대비 뛰어난 일반화 성능을 시사한다.
- 절삭 연구는 공간 열지도를 모션 특징과 결합할 때 두 스트림 중 하나만 사용할 때보다 더 나은 결과를 낳았으며( PA-MPJPE: EgoPW에서 90.8에서 76.7; SceneEgo에서 113.2/80.8에서 104.0/76.2 ), 상호 작용의 중요성을 나타낸다.
- 교차 주의 융합은 결정적이다; 이를 제거하면 성능이 저하된다(예: 교차 주의 없이 EgoPW에서 83.1 PA-MPJPE).
- Heatmap 전처리 BCEWithLogitsLoss가 downstream 3D 포즈 정확도를 MSE보다 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.