[論文レビュー] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model
VIDA を導入し、大規模なビデオベースの 3D オブジェクトアフォーダンスデータセットと、HOI動画から空間認識ロスを用いて 3D アフォーダンスを地上化するマルチモーダル大規模言語モデルと潜在的アクションエンコーダを用いたベースライン VideoAfford を提案する。
3D affordance grounding aims to highlight the actionable regions on 3D objects, which is crucial for robotic manipulation. Previous research primarily focused on learning affordance knowledge from static cues such as language and images, which struggle to provide sufficient dynamic interaction context that can reveal temporal and causal cues. To alleviate this predicament, we collect a comprehensive video-based 3D affordance dataset, extit{VIDA}, which contains 38K human-object-interaction videos covering 16 affordance types, 38 object categories, and 22K point clouds. Based on extit{VIDA}, we propose a strong baseline: VideoAfford, which activates multimodal large language models with additional affordance segmentation capabilities, enabling both world knowledge reasoning and fine-grained affordance grounding within a unified framework. To enhance action understanding capability, we leverage a latent action encoder to extract dynamic interaction priors from HOI videos. Moreover, we introduce a extit{spatial-aware} loss function to enable VideoAfford to obtain comprehensive 3D spatial knowledge. Extensive experimental evaluations demonstrate that our model significantly outperforms well-established methods and exhibits strong open-world generalization with affordance reasoning abilities. All datasets and code will be publicly released to advance research in this area.
研究の動機と目的
- HOIビデオのダイナミックな相互作用手掛かりから正確なロボット操作を可能にするための 3D アフォーダンス地上化の動機付け。
- 38K HOI動画と 22K 注釈付きポイントクラウドを備える初の大規模ビデオベースの 3D アフォーダンスデータセット VIDA の作成。
- VideoAfford を開発し、HOI動画の事前知識を 3D アフォーダンス地上化へ転送するためのビデオ MLLM とアクション埋め込みを用意。
- 空間認識を強化する空間認識ロスを導入し、整合性のある 3D アフォーダンスマスクを生成。
- 分布内および分布外データで堅牢な性能とオープンワールド一般化をデモンストレーション。
提案手法
- grounding を HOI動画とテキスト指示から 3D アフォーダンスマスクを予測する問題として再定式化。
- 幾何学ガイド付きアップサンプリングを備えた事前学習済みの 3D ポイントエンコーダを用いて密な点特徴を取得。
- 隣接点を重み付けして空間的連続性を強制する空間認識 Dice ロスを導入。
- HOI動画からダイナミックな相互作用の priors を抽出する潜在アクションエンコーダを組み込む。
- Video-LLaVA のような Video MLLM を動画-テキスト推論のバックボーンとして用い、<AFF> トークンを介してアフォーダンス知識を注入。
- クロスアテンションを介してアフォーダンス埋め込みと点特徴を融合するトランスフォーマーベースの軽量アフォーダンスデコーダを適用し、アフォーダンスマスクを予測。
- BCE、IOU、空間ロスを含む組み合わせ目的関数と、言語出力の標準的なテキスト損失を併用して訓練。

実験結果
リサーチクエスチョン
- RQ1HOI動画のダイナミクスとマルチモーダル LLM に組み込まれた世界知識を用いて、細粒度の 3D オブジェクトアフォーダンスを地上化できるか。
- RQ2潜在アクションエンコーダは 3D 地上化の動的相互作用理解を改善するか。
- RQ3空間認識ロスは 3D アフォーダンス領域の空間的一貫性と局在化を改善するか。
- RQ4提案手法はオープンワールド設定で見たことのないオブジェクトとアフォーダンスにどれだけ一般化するか。
主な発見
| Method | mIoU ↑ | AUC ↑ | SIM ↑ | MAE ↓ |
|---|---|---|---|---|
| XMF | 14.41 | 71.47 | 41.10 | 0.281 |
| PFusion | 16.33 | 78.43 | 46.28 | 0.264 |
| IAGNet | 20.39 | 80.22 | 50.11 | 0.188 |
| LASO | 18.65 | 78.44 | 49.46 | 0.257 |
| GREAT | 23.62 | 81.41 | 51.25 | 0.173 |
| Seqafford | 23.03 | 81.17 | 47.71 | 0.227 |
| LMAfford3D* | 22.74 | 80.74 | 47.28 | 0.234 |
| Ours | 28.20 | 83.64 | 58.80 | 0.157 |
| XMF (Unseen) | 6.010 | 53.41 | 31.53 | 0.388 |
| PFusion (Unseen) | 7.270 | 56.69 | 34.05 | 0.371 |
| IAGNet (Unseen) | 7.970 | 68.97 | 34.85 | 0.277 |
| LASO (Unseen) | 7.410 | 69.21 | 33.77 | 0.288 |
| GREAT (Unseen) | 8.220 | 70.19 | 35.08 | 0.269 |
| Seqafford (Unseen) | 8.070 | 65.53 | 32.40 | 0.286 |
| LMAfford3D* (Unseen) | 8.110 | 66.42 | 33.61 | 0.278 |
| Ours (Unseen) | 10.95 | 72.86 | 40.08 | 0.255 |
- VideoAfford は seen 及び unseen の両方の設定で VIDA における最先端の結果を達成。
- Seen では VideoAfford は mIoU 28.20、AUC 83.64、SIM 58.80、MAE 0.157 を達成し、すべてのベースラインを上回る。
- Unseen では VideoAfford は mIoU 10.95、AUC 72.86、SIM 40.08、MAE 0.255 を達成し、すべてのベースラインを上回る。
- アブレーションにより、アクションエンコーダと空間ロスが性能を大幅に改善することが示されている(例:両コンポーネントを用いた場合:mIoU 28.20、AUC 83.64、SIM 58.80、MAE 0.157)。
- 8フレームをサンプリングすることで時系列コンテキストと効率のバランスが取れ、2/4/16フレーム設定を上回る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。