[論文レビュー] PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos
PAWS は、手と物体の手掛かり、幾何学的回復、および視覚言語モデルの推論を活用することで、野外の単眼自分視動画からシーンレベルのアーティキュレーションを訓練なしで推定するパイプラインを提案し、アーティキュレーション認識と下流のロボティクスタスクを改善します。
Articulation perception aims to recover the motion and structure of articulated objects (e.g., drawers and cupboards), and is fundamental to 3D scene understanding in robotics, simulation, and animation. Existing learning-based methods rely heavily on supervised training with high-quality 3D data and manual annotations, limiting scalability and diversity. To address this limitation, we propose PAWS, a method that directly extracts object articulations from hand-object interactions in large-scale in-the-wild egocentric videos. We evaluate our method on the public data sets, including HD-EPIC and Arti4D data sets, achieving significant improvements over baselines. We further demonstrate that the extracted articulations benefit downstream tasks, including fine-tuning 3D articulation prediction models and enabling robot manipulation. See the project website at https://aaltoml.github.io/PAWS/.
研究の動機と目的
- Heavy 3D supervision を伴わずに、スケーラブルなシーンレベルのアーティキュレーション理解を動機づける。
- 自身視ビデオデータにおける手と物体の相互作用を利用して、アーティキュレーション運動と構造を推定する。
- 手の軌跡、粗い幾何学、基盤モデルの事前知識を統合してアーティキュレーションパラメータを推定する。
- アーティキュレーション認識の改善と、3D アーティキュレーション予測およびロボット操作の下流への利点を実証する。
提案手法
- ビデオセグメントから3D 手の軌跡と相互作用手掛かりを抽出する動的相互作用認識。
- 粗から細へのマルチビュー再構成による静的シーン幾何推定を用い、回転軸と直動軸の候補を提案する。
- 視覚言語モデルによる推論で運動タイプを分類し、マーク集合ベースの VQA によってアーティキュレーション軸を地認する。
- 手追跡の手掛かりと幾何学的プライアを組み合わせて、アーティキュレーションパラメータ(c_i, a_i, o_i)を推定する。
- 直動運動のためのマンハッタン事前知識と頑健な軸推定のための LO-RANSAC の活用。
- 野外データセットでのアプローチのアブレーションと下流実験を実施する。

実験結果
リサーチクエスチョン
- RQ1未加工の monocular egocentric RGB ビデオからタスク固有の訓練なしで人造物のアーティキュレーションパラメータを推定できるか?
- RQ2 手と物体の相互作用手掛かりと基盤モデルの指針は、幾何学のみの方法よりアーティキュレーション認識を改善するか?
- RQ3 抽出したアーティキュレーションは下流のアーティキュレーション予測モデルとロボット操作の有効な注釈となるか?
- RQ4 PAWS は遮蔽、ノイズ、多様な実世界シーンに対してどれくらい頑健か?
主な発見
| HD-EPIC - Match (%) | HD-EPIC - M | HD-EPIC - MA | HD-EPIC - MAO | HD-EPIC - M† | HD-EPIC - MA† | HD-EPIC - MAO† | Arti4D - Match (%) | Arti4D - M | Arti4D - MA | Arti4D - MAO | Arti4D - M† | Arti4D - MA† | Arti4D - MAO† |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 22.68 | 0.24 | 0.12 | 0.08 | 0.95 | 0.48 | 0.35 | 45.07 | 0.32 | 0.03 | 0.02 | 0.70 | 0.07 | 0.05 |
| 42.22 | 0.34 | 0.15 | 0.11 | 0.81 | 0.37 | 0.27 | 84.29 | 0.53 | 0.06 | 0.03 | 0.62 | 0.07 | 0.04 |
| 70.66 | 0.47 | 0.06 | 0.00 | 0.72 | 0.09 | 0.01 | 85.02 | 0.63 | 0.52 | 0.47 | 0.75 | 0.61 | 0.56 |
| 55.38 | 0.52 | 0.36 | 0.20 | 0.96 | 0.66 | 0.35 | 48.02 | 0.47 | 0.37 | 0.34 | 1.00 | 0.80 | 0.75 |
| 71.43 | 0.71 | 0.46 | 0.36 | 0.98 | 0.63 | 0.48 | – | – | – | – | – | – | – |
- PAWS は HD-EPIC および Arti4D のアーティキュレーション認識ベンチマークにおいて強力なベースライン(Articulation3D 系列、ArtiPoint)を上回る。
- 手軌跡手掛かりと接触フィルタリングを取り入れることで、ノイズの多い制約なし動画での頑健性が向上。
- 視覚言語モデルによる推論(運動タイプ分類と軸の grounding)は、幾何学のみの場合より軸の選択を強化。
- PAWS で生成した EgoArti データを用いて USDNet をファインチューニングすると、同一データ域およびデータセット間でアーティキュレーション予測の改善を達成。
- 回収されたアーティキュレーションパラメータは下流のロボット操作タスクに有用であることが示された。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。