Skip to main content
QUICK REVIEW

[論文レビュー] PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos

Yihao Wang, Yang Miao|arXiv (Cornell University)|Mar 26, 2026
Robot Manipulation and Learning被引用数 0
ひとこと要約

PAWS は、手と物体の手掛かり、幾何学的回復、および視覚言語モデルの推論を活用することで、野外の単眼自分視動画からシーンレベルのアーティキュレーションを訓練なしで推定するパイプラインを提案し、アーティキュレーション認識と下流のロボティクスタスクを改善します。

ABSTRACT

Articulation perception aims to recover the motion and structure of articulated objects (e.g., drawers and cupboards), and is fundamental to 3D scene understanding in robotics, simulation, and animation. Existing learning-based methods rely heavily on supervised training with high-quality 3D data and manual annotations, limiting scalability and diversity. To address this limitation, we propose PAWS, a method that directly extracts object articulations from hand-object interactions in large-scale in-the-wild egocentric videos. We evaluate our method on the public data sets, including HD-EPIC and Arti4D data sets, achieving significant improvements over baselines. We further demonstrate that the extracted articulations benefit downstream tasks, including fine-tuning 3D articulation prediction models and enabling robot manipulation. See the project website at https://aaltoml.github.io/PAWS/.

研究の動機と目的

  • Heavy 3D supervision を伴わずに、スケーラブルなシーンレベルのアーティキュレーション理解を動機づける。
  • 自身視ビデオデータにおける手と物体の相互作用を利用して、アーティキュレーション運動と構造を推定する。
  • 手の軌跡、粗い幾何学、基盤モデルの事前知識を統合してアーティキュレーションパラメータを推定する。
  • アーティキュレーション認識の改善と、3D アーティキュレーション予測およびロボット操作の下流への利点を実証する。

提案手法

  • ビデオセグメントから3D 手の軌跡と相互作用手掛かりを抽出する動的相互作用認識。
  • 粗から細へのマルチビュー再構成による静的シーン幾何推定を用い、回転軸と直動軸の候補を提案する。
  • 視覚言語モデルによる推論で運動タイプを分類し、マーク集合ベースの VQA によってアーティキュレーション軸を地認する。
  • 手追跡の手掛かりと幾何学的プライアを組み合わせて、アーティキュレーションパラメータ(c_i, a_i, o_i)を推定する。
  • 直動運動のためのマンハッタン事前知識と頑健な軸推定のための LO-RANSAC の活用。
  • 野外データセットでのアプローチのアブレーションと下流実験を実施する。
Figure 2 : Overall pipeline. Given a full in-the-wild egocentric video and a language description as input, our pipeline consists of four parts: (1) Dynamic Interaction Perception: We first segment the video based on the language description and extract interactive frames (referred to as "local view
Figure 2 : Overall pipeline. Given a full in-the-wild egocentric video and a language description as input, our pipeline consists of four parts: (1) Dynamic Interaction Perception: We first segment the video based on the language description and extract interactive frames (referred to as "local view

実験結果

リサーチクエスチョン

  • RQ1未加工の monocular egocentric RGB ビデオからタスク固有の訓練なしで人造物のアーティキュレーションパラメータを推定できるか?
  • RQ2 手と物体の相互作用手掛かりと基盤モデルの指針は、幾何学のみの方法よりアーティキュレーション認識を改善するか?
  • RQ3 抽出したアーティキュレーションは下流のアーティキュレーション予測モデルとロボット操作の有効な注釈となるか?
  • RQ4 PAWS は遮蔽、ノイズ、多様な実世界シーンに対してどれくらい頑健か?

主な発見

HD-EPIC - Match (%)HD-EPIC - MHD-EPIC - MAHD-EPIC - MAOHD-EPIC - M†HD-EPIC - MA†HD-EPIC - MAO†Arti4D - Match (%)Arti4D - MArti4D - MAArti4D - MAOArti4D - M†Arti4D - MA†Arti4D - MAO†
22.680.240.120.080.950.480.3545.070.320.030.020.700.070.05
42.220.340.150.110.810.370.2784.290.530.060.030.620.070.04
70.660.470.060.000.720.090.0185.020.630.520.470.750.610.56
55.380.520.360.200.960.660.3548.020.470.370.341.000.800.75
71.430.710.460.360.980.630.48
  • PAWS は HD-EPIC および Arti4D のアーティキュレーション認識ベンチマークにおいて強力なベースライン(Articulation3D 系列、ArtiPoint)を上回る。
  • 手軌跡手掛かりと接触フィルタリングを取り入れることで、ノイズの多い制約なし動画での頑健性が向上。
  • 視覚言語モデルによる推論(運動タイプ分類と軸の grounding)は、幾何学のみの場合より軸の選択を強化。
  • PAWS で生成した EgoArti データを用いて USDNet をファインチューニングすると、同一データ域およびデータセット間でアーティキュレーション予測の改善を達成。
  • 回収されたアーティキュレーションパラメータは下流のロボット操作タスクに有用であることが示された。
Figure 3 : Illustration of VLM Reasoning. (a) Temporal Motion Type Classification. (b) Spatial Axis Grounding via Set-of-Marks VQA.
Figure 3 : Illustration of VLM Reasoning. (a) Temporal Motion Type Classification. (b) Spatial Axis Grounding via Set-of-Marks VQA.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。