QUICK REVIEW

[논문 리뷰] Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning

Rao Fu, Jingyu Liu|arXiv (Cornell University)|2024. 03. 18.

3D Modeling in Geospatial Applications인용 수 8

한 줄 요약

Scene-LLM은 자가 시점 및 장면 수준의 3D 시각 정보를 LLM 백본과 융합하여 밀집 캡션 생성, 3D-VQA 및 실내 장면에서의 인터랙티브 계획 수립을 가능하게 하는 3D 시각-언어 모델로, 광범위한 미세조정 없이도 강력한 벤치마크를 달성합니다.

ABSTRACT

This paper introduces Scene-LLM, a 3D-visual-language model that enhances embodied agents' abilities in interactive 3D indoor environments by integrating the reasoning strengths of Large Language Models (LLMs). Scene-LLM adopts a hybrid 3D visual feature representation, that incorporates dense spatial information and supports scene state updates. The model employs a projection layer to efficiently project these features in the pre-trained textual embedding space, enabling effective interpretation of 3D visual information. Unique to our approach is the integration of both scene-level and ego-centric 3D information. This combination is pivotal for interactive planning, where scene-level data supports global planning and ego-centric data is important for localization. Notably, we use ego-centric 3D frame features for feature alignment, an efficient technique that enhances the model's ability to align features of small objects within the scene. Our experiments with Scene-LLM demonstrate its strong capabilities in dense captioning, question answering, and interactive planning. We believe Scene-LLM advances the field of 3D visual understanding and reasoning, offering new possibilities for sophisticated agent interactions in indoor settings.

연구 동기 및 목표

LLMs를 활용하여 구현체 에이전트에게 강력한 3D 시각 추론 능력을 부여하도록 동기를 부여한다.
밀집된 공간 정보를 보존하고 상태 업데이트를 지원하는 하이브리드 3D 시각 특징 표현을 개발한다.
가벼운 프로젝션 레이어를 통해 밀집 3D 시각 특징을 사전 학습된 LLM 임베딩과 정렬한다.
3D-VQA 벤치마크와 인터랙티브 계획 작업에서 Scene-LLM의 우수성을 입증한다.
3D-시각-언어 정렬을 위한 확장 가능한 데이터 생성 파이프라인을 제공한다.

제안 방법

3D 프레임 및 장면으로부터 밀집 공간 정보를 인코딩하기 위해 하이브리드 3D 포인트-보셀 표현을 사용한다.
정렬을 위해 가벼운 프로젝션 레이어로 3D 특징을 LLM 임베딩 공간으로 투영한다.
두 단계 학습: 1단계는 이중 좌표계에서 3D 프레임-언어 데이터를 사용해 프로젝션 레이어를 사전 학습하고; 2단계는 프레임- 및 장면-언어 데이터에서 프로젝션과 LLM을 함께 미세조정한다.
비인터랙티브 생성 또는 인터랙티브 작업을 위한 2단계 프로세스를 통해 추론하며, 자가 시점 프레임 업데이트와 장면 상태 업데이트를 포함한다.
정렬 및 추론을 지원하기 위해 대규모 3D-시각-언어 데이터셋(≈190k 프레임-언어 페어; ≈500k 장면-지시 페어)을 생성한다.
자가 시점 및 장면 중심 이해를 위한 두 좌표계(카메라와 월드)를 활용하여 계획 수립 및 위치 추적을 개선한다.

실험 결과

연구 질문

RQ1단일화된 3D-시각-언어 모델이 인터랙티브 계획을 위해 자가 시점 정보와 장면 수준 정보를 효과적으로 융합할 수 있는가?
RQ2보셀화 다운샘플링된 밀집 3D 표현이 LLM과의 효과적인 정렬을 지원하고 장면 변화 전반에 걸친 상태 업데이트를 가능하게 하는가?
RQ3이전 3D-VLM과 LLM 기반 플래너와 비교했을 때 Scene-LLM은 3D-VQA 벤치마크와 인터랙티브 계획 작업에서 어떻게 성능을 보이는가?
RQ4학습 전략 및 데이터 모달리티(프레임 대 장면 데이터)가 정렬 및 하위 추론에 미치는 영향은 무엇인가?

주요 결과

Scene-LLM은 다수 지표에서 작업 특이적 파인튜닝 없이도 ScanQA 및 SQA3D에서 최고 성능을 달성한다.
최소 단계의 파인튜닝으로 인터랙티브 계획 벤치마크에서 강력한 결과를 보이며, 고수준 계획 지표에서 기준선을 능가한다.
듀얼 좌표계의 밀집 3D 표현과 보셀 기반 다운샘플링은 효과적인 상태 업데이트 및 LLM과의 정렬을 지원한다.
자가 시점 업데이트와 장면 수준 업데이트 모두 강인한 인터랙티브 계획에 필수적이며, 자가 시점 업데이트는 특히 고수준 계획의 정확성에 중요하다.
프레임-데이터 사전학습은 수렴을 가속하고 개념적 이해를 풍부하게 하며, 오로지 장면 데이터 사전학습과 비교해 우수하다.
가벼운 프로젝션 레이어로 3D 특징과 LLM을 연결할 수 있어 무거운 시각 특징 추출기를 피할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.