Skip to main content
QUICK REVIEW

[論文レビュー] WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

Yufei Ye, Jiaman Li|arXiv (Cornell University)|Feb 25, 2026
Human Pose and Action Recognition被引用数 0
ひとこと要約

WHOLE は egocentric 動画から視覚観察と VLM由来の接触手 cues を用いた拡散ベースのモーション prior によって、手の運動、6D 物体姿勢、手-物体相互作用の再構成を世界座標系で統合的に再構成し、最先端の結果を達成します。

ABSTRACT

Egocentric manipulation videos are highly challenging due to severe occlusions during interactions and frequent object entries and exits from the camera view as the person moves. Current methods typically focus on recovering either hand or object pose in isolation, but both struggle during interactions and fail to handle out-of-sight cases. Moreover, their independent predictions often lead to inconsistent hand-object relations. We introduce WHOLE, a method that holistically reconstructs hand and object motion in world space from egocentric videos given object templates. Our key insight is to learn a generative prior over hand-object motion to jointly reason about their interactions. At test time, the pretrained prior is guided to generate trajectories that conform to the video observations. This joint generative reconstruction substantially outperforms approaches that process hands and objects separately followed by post-processing. WHOLE achieves state-of-the-art performance on hand motion estimation, 6D object pose estimation, and their relative interaction reconstruction. Project website: https://judyye.github.io/whole-www

研究の動機と目的

  • 世界フレームで一貫して robust な 4D 手-物体再構成を egocentric 動画から動機づける。
  • 手-物体相互作用を jointly モデル化する生成的拡散ベースのモーション prior を開発する。
  • 視覚観察(セグメンテーションマスク)と VLM由来の接触 cues を再構成の指針として活用する。
  • 重力に整列した局所フレームを保証し、遮蔽、出入口、長いシーケンスの頑健な処理を実現する。

提案手法

  • 近似的な手の軌跡と物体テンプレートに条件付けられた拡散ベースのモーション prior を訓練し、手、物体、接触の軌跡をモデル化する。
  • 手は MANO パラメータで、物体は 9D SE(3) 姿勢と BPS ジオメトリ記述子で表現し、現実的な接触を促す周囲センサ特徴を含める。
  • 重力を考慮した局所座標系を用いて運動モデリングを安定化させ、長いシーケンスのために結果を world space に変換する。
  • 訓練時には不完全な conditioning 手を合成して、手推定や遮蔽に対する頑健性を向上させる。
  • テスト時のガイダンスは video observations(2D マスク)と VLM由来の接触 cues を用いた classifier-guided diffusion で行い、再投影、相互作用、時系列平滑性の損失項を適用する。
  • 長いシーケンスのブレンドはウィンドウ化した世代を重ね合わせ、共同デノイジングを行うことで時系列的一貫性を維持する。
Figure 2 : Reconstruction Using the Generative Motion Prior. Given a metric-SLAMed egocentric videos, and the object template $\bm{O}$ , we alternate the diffusion generation step and the guidance step to predict hand motion $\bm{H}$ , object 6D trajectory $\bm{T}$ , and binary contact $\bm{C}$ as t
Figure 2 : Reconstruction Using the Generative Motion Prior. Given a metric-SLAMed egocentric videos, and the object template $\bm{O}$ , we alternate the diffusion generation step and the guidance step to predict hand motion $\bm{H}$ , object 6D trajectory $\bm{T}$ , and binary contact $\bm{C}$ as t

実験結果

リサーチクエスチョン

  • RQ1世界空間から egocentric video で一貫した 4D 手-物体相互作用を学習できる unified な生成 prior は作成できるか。
  • RQ2視覚観察と接触 cues によるテスト時のガイダンスは、手と物体の軌跡のグローバルな一貫性と妥当性をどの程度改善するか。
  • RQ3手と物体を共同でモデル化することと、独立して再構成して後処理する方法の比較でどのような影響があるか。
  • RQ4遮蔽、物体の出入口、切断、視界外シナリオに対する頑健性はどの程度か。

主な発見

  • WHOLE は、手と物体を別々に推定して後処理するベースラインを、手の運動、物体の運動、相互作用の指標で上回る。
  • 学習済みの拡散 prior を用いた手-物体の共同再構成は、独立再構成や後最適化法よりもグローバルな整合性と時系列の滑らかさを向上させる。
  • VLM-注釈付き接触 cues(空間的に地に足のついたプロンプトを介して)は、 ground-truth 接触性能に近づき、接触の局在と全体の再構成を改善する。
  • この手法は HOT3D で堅牢な拒否遮蔽・切断・視界外フレームの取り扱いを示し、優れた性能を発揮する。
  • アブレーションにより、生成時の拡散をガイドすることが重要であり、相互作用項が物体運動の忠実度を大幅に向上させることが示された。
Figure 3 : Visual Prompt: We show two examples of the visual prompts provided to the VLM for contact detection.
Figure 3 : Visual Prompt: We show two examples of the visual prompts provided to the VLM for contact detection.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。