QUICK REVIEW

[논문 리뷰] AG-EgoPose: Leveraging Action-Guided Motion and Kinematic Joint Encoding for Egocentric 3D Pose Estimation

Md Mushfiqur Azam, John Quarles|arXiv (Cornell University)|2026. 03. 26.

Human Pose and Action Recognition인용 수 0

한 줄 요약

AG-EgoPose는 학습 가능한 관절 토큰을 가진 트랜스포머 디코더를 통해 2D 관절 열지도와 행동 가이드 모션 특징을 융합하는 이중 스트림 egocentric 3D 포즈 추정기를 도입하여 EgoPW 및 SceneEgo 데이터셋에서 최첨단 성능을 달성한다.

ABSTRACT

Egocentric 3D human pose estimation remains challenging due to severe perspective distortion, limited body visibility, and complex camera motion inherent in first-person viewpoints. Existing methods typically rely on single-frame analysis or limited temporal fusion, which fails to effectively leverage the rich motion context available in egocentric videos. We introduce AG-EgoPose, a novel dual-stream framework that integrates short- and long-range motion context with fine-grained spatial cues for robust pose estimation from fisheye camera input. Our framework features two parallel streams: A spatial stream uses a weight-sharing ResNet-18 encoder-decoder to generate 2D joint heatmaps and corresponding joint-specific spatial feature tokens. Simultaneously, a temporal stream uses a ResNet-50 backbone to extract visual features, which are then processed by an action recognition backbone to capture the motion dynamics. These complementary representations are fused and refined in a transformer decoder with learnable joint tokens, which allows for the joint-level integration of spatial and temporal evidence while maintaining anatomical constraints. Experiments on real-world datasets demonstrate that AG-EgoPose achieves state-of-the-art performance in both quantitative and qualitative metrics. Code is available at: https://github.com/Mushfiq5647/AG-EgoPose.

연구 동기 및 목표

거친 원근 왜곡과 가림이 심한 자가시점 어안 렌즈 영상에서 견고한 3D 포즈 추정을 동기화한다.
짧은- 및 긴-거리 모션 컨텍스트를 행동 정보 priors로 활용해 포즈 모호성을 해결한다.
공간 정밀도를 보존하면서 시간적 다이나믹스를 통합하는 관절 수준 융합 메커니즘을 개발한다.
해부학적으로 일관된 3D 포즈 회귀를 위한 학습 가능한 관절 토큰을 가진 트랜스포머 기반 디코더를 제안한다.
EgoPW 및 SceneEgo 벤치마크에서 최첨단 성능을 시연한다.

제안 방법

공간 열지도 스트림과 모션 기반 시간 스트림의 이중 스트림 구조를 채택한다.
공간 스트림은 가중치 공유 ResNet-18 인코더-디코더를 사용하여 2D 관절 열지도와 각 관절 임베딩을 생성한다.
모션 스트림은 Short- 및 Long-range 모션 다이내믹스를 포착하기 위해 ResNet-50 백본과 ActionFormer 기반의 시간 인코더를 사용한다.
열지도는 각 관절 토큰으로 임베딩되고 모션 특징과 관절 수준 메모리에 융합된다.
학습 가능한 관절 토큰을 갖춘 트랜스포머 디코더가 메모리에 주의를 기울여 3D 관절 위치를 회귀한다.
손실은 해골 길이 및 뼈 방향 규제와 함께 관절 위치 오차를 결합하여 해부학적 타당성을 강제한다.

실험 결과

연구 질문

RQ1짧은- 및 긴-거리 시간 맥락이 가림 및 시점 왜곡 하에서 자가시점 3D 포즈 추정에 어떻게 기여할 수 있는가?
RQ2행동 가이드 모션 특징을 공간 열지도 증거와 효과적으로 융합해 3D 포즈 정확성을 향상시킬 수 있는가?
RQ3관절 토큰 기반 트랜스포머 디코더가 공간 및 시간 신호의 로버스트한 관절별 융합을 가능하게 하는가?

주요 결과

방법	MPJPE (mm)	PA-MPJPE (mm)	비고
Mo2Cap2	200.3	121.2	< EgoScene comparison on SceneEgo table; not the EgoPW primary PA-MPJPE table>
xR-EgoPose	241.3	133.9	SceneEgo results from Table 2
EgoPW	189.6	105.3	Baseline EgoPW result (MPJPE/PA-MPJPE)
SceneEgo	118.5	92.7	State-of-the-art before Ours on SceneEgo
Ours	104.0	76.2	Ours on SceneEgo (MPJPE/PA-MPJPE)

EgoPW에서 PA-MPJPE가 84.2 mm에서 76.7 mm로 개선되어 표에서 최첨단에 도달했다.
SceneEgo에서 MPJPE/PA-MPJPE가 각각 104.0 mm와 76.2 mm로 기존 방법을 능가했다.
다른 데이터셋으로의 SceneEgo 이식은 104.0/76.2 mm(MPJPE/PA-MPJPE)으로, 이전 최댓값 118.5/92.7 mm 대비 뛰어난 일반화 성능을 시사한다.
절삭 연구는 공간 열지도를 모션 특징과 결합할 때 두 스트림 중 하나만 사용할 때보다 더 나은 결과를 낳았으며( PA-MPJPE: EgoPW에서 90.8에서 76.7; SceneEgo에서 113.2/80.8에서 104.0/76.2 ), 상호 작용의 중요성을 나타낸다.
교차 주의 융합은 결정적이다; 이를 제거하면 성능이 저하된다(예: 교차 주의 없이 EgoPW에서 83.1 PA-MPJPE).
Heatmap 전처리 BCEWithLogitsLoss가 downstream 3D 포즈 정확도를 MSE보다 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.