[论文解读] WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos
WHOLE 通过在世界空间中联合重建手部与物体的运动,利用由视觉观测和 VLM 获取的接触线索引导的扩散式运动先验,在手部运动、6D 物体姿态和手-物体交互重建方面达到SOTA。
Egocentric manipulation videos are highly challenging due to severe occlusions during interactions and frequent object entries and exits from the camera view as the person moves. Current methods typically focus on recovering either hand or object pose in isolation, but both struggle during interactions and fail to handle out-of-sight cases. Moreover, their independent predictions often lead to inconsistent hand-object relations. We introduce WHOLE, a method that holistically reconstructs hand and object motion in world space from egocentric videos given object templates. Our key insight is to learn a generative prior over hand-object motion to jointly reason about their interactions. At test time, the pretrained prior is guided to generate trajectories that conform to the video observations. This joint generative reconstruction substantially outperforms approaches that process hands and objects separately followed by post-processing. WHOLE achieves state-of-the-art performance on hand motion estimation, 6D object pose estimation, and their relative interaction reconstruction. Project website: https://judyye.github.io/whole-www
研究动机与目标
- 从自我视角视频在一致的世界坐标系中 motivate 鲁棒的4D手物体重构。
- 开发一个生成式扩散式运动先验,以联合建模手物体交互。
- 利用视觉观测(分割掩模)和 VLM 派生的接触线索来指导重建。
- 确保重力对齐的局部坐标系并鲁棒处理遮挡、进出场与长序列。
提出的方法
- 在近似手部轨迹和物体模板的条件下训练一个扩散式运动先验,以建模手、物、接触轨迹。
- 用 MANO 参数表示手部,用 9D SE(3) 姿态加上 BPS 几何描述符表示物体;包含环境传感特征以促进真实接触。
- 使用具重力感知的局部坐标系来稳定运动建模,并将结果转换到世界空间以处理长序列。
- 在训练阶段合成不完美的条件手,以提升对手部估计器和遮挡的鲁棒性。
- 测试时通过分类器引导扩散(使用视频观测2D掩模和 VLM 派生的接触线索进行引导生成,包含再投影、交互和时序光滑损失项)。
- 通过重叠滑窗生成和联合去噪来平滑长序列,以保持时序连贯性。

实验结果
研究问题
- RQ1一个统一的生成先验能否从自我视角视频在世界空间学习出连贯的4D手物体交互?
- RQ2使用视觉观测和接触线索的测试时引导如何提升手部和物体轨迹的全局一致性与可信度?
- RQ3联合建模手部与物体 versus 独立重建再后处理的效果如何?
- RQ4该方法在遮挡、物体进出、截断和视野外场景中的鲁棒性如何?
主要发现
- WHOLE 在手部运动、物体运动和交互度量上均优于对手单独估计手部与物体再后处理的基线方法。
- 通过学习的扩散先验进行手物联合重建,全球对齐性与时序平滑性优于独立或后优化方法。
- VLM 标注的接触线索(通过在空间上固定的提示)接近真实接触表现,提升接触定位与整体重建。
- 该方法在 HOT3D 上表现出色,鲁棒处理遮挡、截断和视野外帧。
- 消融表明在生成阶段引导扩散至关重要,交互项显著提升物体运动保真度。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。