QUICK REVIEW

[論文レビュー] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

Hanqing Wang, Mingyu Liu|arXiv (Cornell University)|Feb 10, 2026

Robot Manipulation and Learning被引用数 0

ひとこと要約

VIDA を導入し、大規模なビデオベースの 3D オブジェクトアフォーダンスデータセットと、HOI動画から空間認識ロスを用いて 3D アフォーダンスを地上化するマルチモーダル大規模言語モデルと潜在的アクションエンコーダを用いたベースライン VideoAfford を提案する。

ABSTRACT

3D affordance grounding aims to highlight the actionable regions on 3D objects, which is crucial for robotic manipulation. Previous research primarily focused on learning affordance knowledge from static cues such as language and images, which struggle to provide sufficient dynamic interaction context that can reveal temporal and causal cues. To alleviate this predicament, we collect a comprehensive video-based 3D affordance dataset, extit{VIDA}, which contains 38K human-object-interaction videos covering 16 affordance types, 38 object categories, and 22K point clouds. Based on extit{VIDA}, we propose a strong baseline: VideoAfford, which activates multimodal large language models with additional affordance segmentation capabilities, enabling both world knowledge reasoning and fine-grained affordance grounding within a unified framework. To enhance action understanding capability, we leverage a latent action encoder to extract dynamic interaction priors from HOI videos. Moreover, we introduce a extit{spatial-aware} loss function to enable VideoAfford to obtain comprehensive 3D spatial knowledge. Extensive experimental evaluations demonstrate that our model significantly outperforms well-established methods and exhibits strong open-world generalization with affordance reasoning abilities. All datasets and code will be publicly released to advance research in this area.

研究の動機と目的

HOIビデオのダイナミックな相互作用手掛かりから正確なロボット操作を可能にするための 3D アフォーダンス地上化の動機付け。
38K HOI動画と 22K 注釈付きポイントクラウドを備える初の大規模ビデオベースの 3D アフォーダンスデータセット VIDA の作成。
VideoAfford を開発し、HOI動画の事前知識を 3D アフォーダンス地上化へ転送するためのビデオ MLLM とアクション埋め込みを用意。
空間認識を強化する空間認識ロスを導入し、整合性のある 3D アフォーダンスマスクを生成。
分布内および分布外データで堅牢な性能とオープンワールド一般化をデモンストレーション。

提案手法

grounding を HOI動画とテキスト指示から 3D アフォーダンスマスクを予測する問題として再定式化。
幾何学ガイド付きアップサンプリングを備えた事前学習済みの 3D ポイントエンコーダを用いて密な点特徴を取得。
隣接点を重み付けして空間的連続性を強制する空間認識 Dice ロスを導入。
HOI動画からダイナミックな相互作用の priors を抽出する潜在アクションエンコーダを組み込む。
Video-LLaVA のような Video MLLM を動画-テキスト推論のバックボーンとして用い、<AFF> トークンを介してアフォーダンス知識を注入。
クロスアテンションを介してアフォーダンス埋め込みと点特徴を融合するトランスフォーマーベースの軽量アフォーダンスデコーダを適用し、アフォーダンスマスクを予測。
BCE、IOU、空間ロスを含む組み合わせ目的関数と、言語出力の標準的なテキスト損失を併用して訓練。

Figure 2 : Data Collection Pipeline. We show the whole data collection and verification pipeline here. First, we utilize VLMs to caption each video and extract keywords about action and objects. We then utilize the VLMs to pair the video to an affordance type. Finally, we manually check the results

実験結果

リサーチクエスチョン

RQ1HOI動画のダイナミクスとマルチモーダル LLM に組み込まれた世界知識を用いて、細粒度の 3D オブジェクトアフォーダンスを地上化できるか。
RQ2潜在アクションエンコーダは 3D 地上化の動的相互作用理解を改善するか。
RQ3空間認識ロスは 3D アフォーダンス領域の空間的一貫性と局在化を改善するか。
RQ4提案手法はオープンワールド設定で見たことのないオブジェクトとアフォーダンスにどれだけ一般化するか。

主な発見

Method	mIoU ↑	AUC ↑	SIM ↑	MAE ↓
XMF	14.41	71.47	41.10	0.281
PFusion	16.33	78.43	46.28	0.264
IAGNet	20.39	80.22	50.11	0.188
LASO	18.65	78.44	49.46	0.257
GREAT	23.62	81.41	51.25	0.173
Seqafford	23.03	81.17	47.71	0.227
LMAfford3D*	22.74	80.74	47.28	0.234
Ours	28.20	83.64	58.80	0.157
XMF (Unseen)	6.010	53.41	31.53	0.388
PFusion (Unseen)	7.270	56.69	34.05	0.371
IAGNet (Unseen)	7.970	68.97	34.85	0.277
LASO (Unseen)	7.410	69.21	33.77	0.288
GREAT (Unseen)	8.220	70.19	35.08	0.269
Seqafford (Unseen)	8.070	65.53	32.40	0.286
LMAfford3D* (Unseen)	8.110	66.42	33.61	0.278
Ours (Unseen)	10.95	72.86	40.08	0.255

VideoAfford は seen 及び unseen の両方の設定で VIDA における最先端の結果を達成。
Seen では VideoAfford は mIoU 28.20、AUC 83.64、SIM 58.80、MAE 0.157 を達成し、すべてのベースラインを上回る。
Unseen では VideoAfford は mIoU 10.95、AUC 72.86、SIM 40.08、MAE 0.255 を達成し、すべてのベースラインを上回る。
アブレーションにより、アクションエンコーダと空間ロスが性能を大幅に改善することが示されている（例：両コンポーネントを用いた場合：mIoU 28.20、AUC 83.64、SIM 58.80、MAE 0.157）。
8フレームをサンプリングすることで時系列コンテキストと効率のバランスが取れ、2/4/16フレーム設定を上回る。

Figure 3 : VIDA Dataset. Here we illustrate the detailed information of VIDA. a) shows the examples of the video and corresponding affordance point clouds. b) shows the videos and point clouds radios, and c) shows the category distributions of VIDA.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。