QUICK REVIEW

[논문 리뷰] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

Hanqing Wang, Mingyu Liu|arXiv (Cornell University)|2026. 02. 10.

Robot Manipulation and Learning인용 수 0

한 줄 요약

VIDA를 소개하는 대규모 비디오 기반 3D 객체 어포던스 데이터셋과, HOI 비디오에서 3D 어포던스를 공간적으로 인지하는 손실로 Grounding하는 베이스라인인 VideoAfford를 제시한다. 멀티모달 대형 언어 모델과 잠재적 행동 인코더를 활용하여 HOI 비디오에서 3D 어포던스를 지면화한다.

ABSTRACT

3D affordance grounding aims to highlight the actionable regions on 3D objects, which is crucial for robotic manipulation. Previous research primarily focused on learning affordance knowledge from static cues such as language and images, which struggle to provide sufficient dynamic interaction context that can reveal temporal and causal cues. To alleviate this predicament, we collect a comprehensive video-based 3D affordance dataset, extit{VIDA}, which contains 38K human-object-interaction videos covering 16 affordance types, 38 object categories, and 22K point clouds. Based on extit{VIDA}, we propose a strong baseline: VideoAfford, which activates multimodal large language models with additional affordance segmentation capabilities, enabling both world knowledge reasoning and fine-grained affordance grounding within a unified framework. To enhance action understanding capability, we leverage a latent action encoder to extract dynamic interaction priors from HOI videos. Moreover, we introduce a extit{spatial-aware} loss function to enable VideoAfford to obtain comprehensive 3D spatial knowledge. Extensive experimental evaluations demonstrate that our model significantly outperforms well-established methods and exhibits strong open-world generalization with affordance reasoning abilities. All datasets and code will be publicly released to advance research in this area.

연구 동기 및 목표

HOI 비디오의 동적 상호작용 단서를 사용하여 정밀한 로봇 조작 가능성을 위한 3D 어포던스 그라운딩을 동기화한다.
38K HOI 비디오와 22K 주석 포인트 클라우드로 구성된 최초의 대규모 비디오 기반 3D 어포던스 데이터셋 VIDA를 만든다.
HOI 비디오 프라이어를 3D 어포던스 그라운딩으로 전이하는 VideoAfford의 베이스라인을 개발한다.
공간적으로 인식된 손실을 도입하여 공간 해석을 강화하고 일관된 3D 어포던스 마스크를 생성한다.
데이터 내·외부 분포에서 강건한 성능과 오픈 월드 일반화를 입증한다.

제안 방법

grounding을 HOI 비디오와 텍스트 지시어로부터 3D 어포던스 마스크를 예측하는 문제로 재구성한다.
기하 가이드 업샘플링으로 밀집 포인트 특징을 얻기 위해 사전 학습된 3D 포인트 인코더를 사용한다.
인접 포인트를 가중치하는 공간 인식 Dice 손실을 도입하여 공간 연속성을 강요한다.
HOI 비디오에서 동적 상호작용 프라이어를 추출하기 위해 잠재 행동 인코더를 통합한다.
비디오-텍스트 추론 백본으로 Video MLLM(Video-LLaVA)을 사용하고 어포던스 지식을 주입하기 위한 <AFF> 토큰을 도입한다.
교차 주의(Cross-attention)를 통해 어포던스 임베딩과 포인트 특징을 융합하는 트랜스포머 기반의 경량 어포던스 디코더를 적용하여 어포던스 마스크를 예측한다.
BCE, IOU, 공간 손실, 그리고 언어 출력을 위한 일반 텍스트 손실의 결합된 목표로 학습한다.

Figure 2 : Data Collection Pipeline. We show the whole data collection and verification pipeline here. First, we utilize VLMs to caption each video and extract keywords about action and objects. We then utilize the VLMs to pair the video to an affordance type. Finally, we manually check the results

실험 결과

연구 질문

RQ1HOI 비디오의 동적 변화와 멀티모달 LLM에 내재된 세계 지식을 이용해 미세한 3D 객체 어포던스를 그라운드할 수 있는가?
RQ2잠재 행동 인코더가 3D 그라운딩의 동적 상호작용 이해를 향상시키는가?
RQ3공간 인식 손실이 3D 어포던스 영역의 공간적 일관성과 위치 파악을 향상시키는가?
RQ4제안된 접근법이 열린 세계에서 보지 못한 객체와 어포던스에 얼마나 잘 일반화되는가?

주요 결과

VideoAfford는 보이는 설정과 보이지 않는 설정 모두에서 VIDA에서 최첨단 성능을 달성한다.
보이는 설정에서 VideoAfford는 mIoU 28.20, AUC 83.64, SIM 58.80, MAE 0.157로 모든 베이스라인을 능가한다.
보이지 않는 설정에서 VideoAfford는 mIoU 10.95, AUC 72.86, SIM 40.08, MAE 0.255로 모든 베이스라인을 능가한다.
행동 인코더와 공간 손실의 제거/도입에 따른 제거 실험은 성능을 크게 개선하며(예: 두 구성요소를 모두 사용할 때: mIoU 28.20, AUC 83.64, SIM 58.80, MAE 0.157),
8 프레임 샘플링은 시간적 맥락과 효율성 사이의 균형을 제공하며 2/4/16 프레임 설정보다 우수한 성능을 보인다.

Figure 3 : VIDA Dataset. Here we illustrate the detailed information of VIDA. a) shows the examples of the video and corresponding affordance point clouds. b) shows the videos and point clouds radios, and c) shows the category distributions of VIDA.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.