QUICK REVIEW

[논문 리뷰] WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

Yufei Ye, Jiaman Li|arXiv (Cornell University)|2026. 02. 25.

Human Pose and Action Recognition인용 수 0

한 줄 요약

WHOLE은 시점 중심 비디오에서 세계 공간의 손과 물체 모션을 확산 기반 모션 프라이어로 안내된 시각 관찰 및 VLM 유래 접촉 단서를 활용하여 재구성하되, 손 모션, 6D 물체 자세, 손-물체 상호작용 재구성에서 최신 성과를 달성한다.

ABSTRACT

Egocentric manipulation videos are highly challenging due to severe occlusions during interactions and frequent object entries and exits from the camera view as the person moves. Current methods typically focus on recovering either hand or object pose in isolation, but both struggle during interactions and fail to handle out-of-sight cases. Moreover, their independent predictions often lead to inconsistent hand-object relations. We introduce WHOLE, a method that holistically reconstructs hand and object motion in world space from egocentric videos given object templates. Our key insight is to learn a generative prior over hand-object motion to jointly reason about their interactions. At test time, the pretrained prior is guided to generate trajectories that conform to the video observations. This joint generative reconstruction substantially outperforms approaches that process hands and objects separately followed by post-processing. WHOLE achieves state-of-the-art performance on hand motion estimation, 6D object pose estimation, and their relative interaction reconstruction. Project website: https://judyye.github.io/whole-www

연구 동기 및 목표

Consistency한 월드 프레임에서의 시점 중심 4D 손-물체 재구성을 견고하게 동기화한다.
손-물체 상호작용을 jointly 모델링하기 위한 생성적 확산 기반 모션 프라이어를 개발한다.
시각 관찰(세분화 마스크) 및 VLM 유래 접촉 단서를 재구성 안내에 활용한다.
중력 정렬 로컬 프레임을 보장하고 가림, 출입, 장시퀀스의 강건한 처리를 다룬다.

제안 방법

대략적인 손 궤적 및 물체 템플릿에 조건화된 확산 기반 모션 프라이어를 학습하여 손, 물체 및 접촉 궤적을 모델링한다.
손은 MANO 매개변수로, 물체는 9D SE(3) 포즈와 BPS 기하 Descriptor로 표현하고, 현실적인 접촉을 장려하기 위해 주변 센서 특징을 포함한다.
모션 모델링을 안정화하고 장시퀀스에 대해 세계 공간으로 결과를 변환하기 위해 중력-인식 로컬 좌표계(gravity-aware local coordinate frame)를 사용한다.
학습 중 불완전한 conditioning 손을 합성하여 손 추정기 및 가림에 대한 강건성을 향상시킨다.
테스트 시 비디오 관찰(2D 마스크) 및 VLM 유래 접촉 단서를 사용한 분류기-가이드 확산으로 가이드 생성, 재투영, 상호작용 및 시간적-매끄러움 손실 항을 포함한다.
장시퀀스를 윈도우화된 생성으로 중첩하고 공동 디노이징으로 시간적 일관성을 유지한다.

Figure 2 : Reconstruction Using the Generative Motion Prior. Given a metric-SLAMed egocentric videos, and the object template $\bm{O}$ , we alternate the diffusion generation step and the guidance step to predict hand motion $\bm{H}$ , object 6D trajectory $\bm{T}$ , and binary contact $\bm{C}$ as t

실험 결과

연구 질문

RQ1EGOCENTRIC 비주에서 세계 공간의 일관된 4D 손-물체 상호작용을 학습하는 단일화된 생성 프라이어가 가능할까?
RQ2시각 관찰 및 접촉 단서를 이용한 테스트 시 가이던스가 손 및 물체 궤적의 글로벌 일관성과 타당성을 어떻게 개선하는가?
RQ3손과 물체를 공동으로 모델링하는 것이 독립적으로 손/물체를 재구성하고 후처리하는 것보다 어떤 영향을 미치는가?
RQ4가림, 물체의 출입/종료, 절단 및 시야 밖 상황에 대한 접근은 얼마나 강건한가?

주요 결과

WHOLE은 손 및 물체를 각각 추정한 뒤 후처리하는 베이스라인보다 손 모션, 물체 모션, 상호작용 지표에서 더 나은 성능을 보인다.
학습된 확산 프라이어를 이용한 공동 손-물체 재구성은 독립적이거나 최적화 후 방법보다 전역 정렬 및 시간적 매끄러움이 더 우수하다.
VLM 주석 접촉 단서(공간적으로 근거를 둔 프롬프트를 통해)가 Ground-truth 접촉 성능에 근접하여 접촉 위치 추정 및 전체 재구성 품질을 향상시킨다.
이 방법은 HOT3D에서 가림, 절단 및 시야 밖 프레임에 대해 강 robust한 성능을 보인다.
일부 제거 연구에서 생성 시 diffusion을 가이드하는 것이 결정적이며, 상호작용 항이 물체 모션의 충실도를 크게 향상시킨다는 것을 보여준다.

Figure 3 : Visual Prompt: We show two examples of the visual prompts provided to the VLM for contact detection.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.