Skip to main content
QUICK REVIEW

[논문 리뷰] Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning

Rao Fu, Jingyu Liu|arXiv (Cornell University)|2024. 03. 18.
3D Modeling in Geospatial Applications인용 수 8
한 줄 요약

Scene-LLM은 자가 시점 및 장면 수준의 3D 시각 정보를 LLM 백본과 융합하여 밀집 캡션 생성, 3D-VQA 및 실내 장면에서의 인터랙티브 계획 수립을 가능하게 하는 3D 시각-언어 모델로, 광범위한 미세조정 없이도 강력한 벤치마크를 달성합니다.

ABSTRACT

This paper introduces Scene-LLM, a 3D-visual-language model that enhances embodied agents' abilities in interactive 3D indoor environments by integrating the reasoning strengths of Large Language Models (LLMs). Scene-LLM adopts a hybrid 3D visual feature representation, that incorporates dense spatial information and supports scene state updates. The model employs a projection layer to efficiently project these features in the pre-trained textual embedding space, enabling effective interpretation of 3D visual information. Unique to our approach is the integration of both scene-level and ego-centric 3D information. This combination is pivotal for interactive planning, where scene-level data supports global planning and ego-centric data is important for localization. Notably, we use ego-centric 3D frame features for feature alignment, an efficient technique that enhances the model's ability to align features of small objects within the scene. Our experiments with Scene-LLM demonstrate its strong capabilities in dense captioning, question answering, and interactive planning. We believe Scene-LLM advances the field of 3D visual understanding and reasoning, offering new possibilities for sophisticated agent interactions in indoor settings.

연구 동기 및 목표

  • LLMs를 활용하여 구현체 에이전트에게 강력한 3D 시각 추론 능력을 부여하도록 동기를 부여한다.
  • 밀집된 공간 정보를 보존하고 상태 업데이트를 지원하는 하이브리드 3D 시각 특징 표현을 개발한다.
  • 가벼운 프로젝션 레이어를 통해 밀집 3D 시각 특징을 사전 학습된 LLM 임베딩과 정렬한다.
  • 3D-VQA 벤치마크와 인터랙티브 계획 작업에서 Scene-LLM의 우수성을 입증한다.
  • 3D-시각-언어 정렬을 위한 확장 가능한 데이터 생성 파이프라인을 제공한다.

제안 방법

  • 3D 프레임 및 장면으로부터 밀집 공간 정보를 인코딩하기 위해 하이브리드 3D 포인트-보셀 표현을 사용한다.
  • 정렬을 위해 가벼운 프로젝션 레이어로 3D 특징을 LLM 임베딩 공간으로 투영한다.
  • 두 단계 학습: 1단계는 이중 좌표계에서 3D 프레임-언어 데이터를 사용해 프로젝션 레이어를 사전 학습하고; 2단계는 프레임- 및 장면-언어 데이터에서 프로젝션과 LLM을 함께 미세조정한다.
  • 비인터랙티브 생성 또는 인터랙티브 작업을 위한 2단계 프로세스를 통해 추론하며, 자가 시점 프레임 업데이트와 장면 상태 업데이트를 포함한다.
  • 정렬 및 추론을 지원하기 위해 대규모 3D-시각-언어 데이터셋(≈190k 프레임-언어 페어; ≈500k 장면-지시 페어)을 생성한다.
  • 자가 시점 및 장면 중심 이해를 위한 두 좌표계(카메라와 월드)를 활용하여 계획 수립 및 위치 추적을 개선한다.

실험 결과

연구 질문

  • RQ1단일화된 3D-시각-언어 모델이 인터랙티브 계획을 위해 자가 시점 정보와 장면 수준 정보를 효과적으로 융합할 수 있는가?
  • RQ2보셀화 다운샘플링된 밀집 3D 표현이 LLM과의 효과적인 정렬을 지원하고 장면 변화 전반에 걸친 상태 업데이트를 가능하게 하는가?
  • RQ3이전 3D-VLM과 LLM 기반 플래너와 비교했을 때 Scene-LLM은 3D-VQA 벤치마크와 인터랙티브 계획 작업에서 어떻게 성능을 보이는가?
  • RQ4학습 전략 및 데이터 모달리티(프레임 대 장면 데이터)가 정렬 및 하위 추론에 미치는 영향은 무엇인가?

주요 결과

  • Scene-LLM은 다수 지표에서 작업 특이적 파인튜닝 없이도 ScanQA 및 SQA3D에서 최고 성능을 달성한다.
  • 최소 단계의 파인튜닝으로 인터랙티브 계획 벤치마크에서 강력한 결과를 보이며, 고수준 계획 지표에서 기준선을 능가한다.
  • 듀얼 좌표계의 밀집 3D 표현과 보셀 기반 다운샘플링은 효과적인 상태 업데이트 및 LLM과의 정렬을 지원한다.
  • 자가 시점 업데이트와 장면 수준 업데이트 모두 강인한 인터랙티브 계획에 필수적이며, 자가 시점 업데이트는 특히 고수준 계획의 정확성에 중요하다.
  • 프레임-데이터 사전학습은 수렴을 가속하고 개념적 이해를 풍부하게 하며, 오로지 장면 데이터 사전학습과 비교해 우수하다.
  • 가벼운 프로젝션 레이어로 3D 특징과 LLM을 연결할 수 있어 무거운 시각 특징 추출기를 피할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.