QUICK REVIEW

[논문 리뷰] 3D-LLM: Injecting the 3D World into Large Language Models

Yining Hong, Haoyu Zhen|arXiv (Cornell University)|2023. 07. 24.

Multimodal Machine Learning Applications인용 수 39

한 줄 요약

논문은 3D 포인트 클라우드와 그 특징들을 입력으로 받는 3D-LLMs를 도입하여 3D 지향 작업들을 수행하도록 하며, 3D-언어 데이터 파이프라인과 2D VLM 백본, 3D 로컬라이제이션 메커니즘으로 학습합니다.

ABSTRACT

Large language models (LLMs) and Vision-Language Models (VLMs) have been proven to excel at multiple tasks, such as commonsense reasoning. Powerful as these models can be, they are not grounded in the 3D physical world, which involves richer concepts such as spatial relationships, affordances, physics, layout, and so on. In this work, we propose to inject the 3D world into large language models and introduce a whole new family of 3D-LLMs. Specifically, 3D-LLMs can take 3D point clouds and their features as input and perform a diverse set of 3D-related tasks, including captioning, dense captioning, 3D question answering, task decomposition, 3D grounding, 3D-assisted dialog, navigation, and so on. Using three types of prompting mechanisms that we design, we are able to collect over 300k 3D-language data covering these tasks. To efficiently train 3D-LLMs, we first utilize a 3D feature extractor that obtains 3D features from rendered multi- view images. Then, we use 2D VLMs as our backbones to train our 3D-LLMs. By introducing a 3D localization mechanism, 3D-LLMs can better capture 3D spatial information. Experiments on ScanQA show that our model outperforms state-of-the-art baselines by a large margin (e.g., the BLEU-1 score surpasses state-of-the-art score by 9%). Furthermore, experiments on our held-in datasets for 3D captioning, task composition, and 3D-assisted dialogue show that our model outperforms 2D VLMs. Qualitative examples also show that our model could perform more tasks beyond the scope of existing LLMs and VLMs. Project Page: : https://vis-www.cs.umass.edu/3dllm/.

연구 동기 및 목표

3D 포인트 클라우드와 특징들을 입력으로 받아 LLM을 3D 세계에 접목시키기.
다양한 작업(캡션 작성, QA, 그라운딩, 대화, 내비게이션)을 포괄하는 대규모 3D-언어 데이터셋을 생성하고 확장하기.
3D 특징을 동일한 특징 공간으로 매핑하여 2D 사전학습 VLM들을 백본으로 활용.
3D 공간 추론을 개선하기 위해 3D 로컬라이제이션 메커니즘 도입.
3D-비전–언어 벤치마크에서 최첨단 baselines 대비 성능 향상을 입증하기.

제안 방법

ChatGPT와 3D 씬 정보를 이용한 세 가지 프롬프트 파이프라인으로 대규모 3D-언어 데이터(30만 쌍 이상) 생성.
렌더링된 다중 뷰 이미지에서 Direct Reconstruction, Feature Fusion(gradslam), Neural Field 방식으로 3D 특징을 추출하고 <N, D_v> 3D 특징을 구성합니다.
2D VLM 백본(예: Flamingo, BLIP-2)을 perceiver-스타일 아키텍처와 함께 사용하여 3D 특징을 처음부터 학습시키지 않고 처리합니다.
3D 특징에 사인파 위치 임베딩과 위치 토큰을 LLM 어휘에 도입하여 3D 공간 정보를 인코딩합니다.
언어 모델링 손실로 학습하고, 보류된 ScanQA 및 보류-in 3D 작업(캡션 작성, 그라운딩, 대화, 작업 분해)을 평가합니다.

실험 결과

연구 질문

RQ13D 표현을 입력으로 사용하면 2D 입력보다 3D 작업에서 언어 모델 기반 추론이 개선될 수 있는가?
RQ23D-LLMs 학습을 위한 대규모 3D-언어 데이터를 어떻게 효율적으로 생성하고 정렬할 수 있는가?
RQ33D 로컬라이제이션 메커니즘이 LLM의 3D 공간 이해와 그라운딩을 개선하는가?
RQ43D-LLMs가 ScanQA 같은 3D 중심 벤치마크에서 2D VLMs 및 LLM baselines를 능가하는가?
RQ5다양한 3D 특징 추출 전략이 최종 3D-LLM 성능에 어떤 영향을 미치는가?

주요 결과

BLEU-1	BLEU-2	BLEU-3	BLEU-4	METEOR	ROUGE-L	CIDER	EM
VoteNet+MCAN*	28.0	16.7	10.8	6.2	11.4	29.8	54.7	17.3
ScanRefer+MCAN*	26.9	16.6	11.6	7.9	11.5	30	55.4	18.6
ScanQA*	30.2	20.4	15.1	10.1	13.1	33.3	64.9	21.0
LLaVA(zero-shot)	7.1	2.6	0.9	0.3	10.5	12.3	5.7	0.0
flamingo-SingleImage	23.8	14.5	9.2	8.5	10.7	29.6	52	16.9
flamingo-MultiView	25.6	15.2	9.2	8.4	11.3	31.1	55	18.0
BLIP2-flant5-SingleImage	28.6	15.1	9.0	5.1	10.6	25.8	42.6	13.3
BLIP2-flant5-MultiView	29.7	16.2	9.8	5.9	11.3	26.6	45.7	13.6
3D-LLM (flamingo)	30.3	17.8	12.0	7.2	12.2	32.3	59.2	20.4
3D-LLM (BLIP2-opt)	35.9	22.5	16.0	9.4	13.8	34.0	63.8	19.3
3D-LLM (BLIP2-flant5)	39.3	25.2	18.4	12.0	14.5	35.7	69.4	20.5

3D-LLMs가 ScanQA에서 최첨단 결과를 달성하며, BLEU-1이 이전 최고치보다 약 9% 향상되었습니다.
보류된 데이터셋(캡션 작성, 그라운딩, 대화, 작업 분해)에서 3D-LLMs는 여러 지표에서 2D VLMs를 능가합니다.
명시적 객체 표현에 의존하지 않고 holistic 3D 특징을 사용해 강력한 성능을 보입니다.
BLIP2-flant5 백본을 가진 3D-LLM은 BLEU-1 39.3, BLEU-4 25.2로 ScanQA 검증에서 기저선보다 우수합니다.
FLIP2-flanT5 및 FLIP2-opt 백본을 사용하는 3D-LLMs은 Flamingo 기반 변형 및 단일 뷰 기준선을 능가합니다.
정성적 결과는 기존 LLM 및 VLM을 넘어서는 더 폭넓은 표적 작업 능력을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.