QUICK REVIEW

[論文レビュー] Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning

Rao Fu, Jingyu Liu|arXiv (Cornell University)|Mar 18, 2024

3D Modeling in Geospatial Applications被引用数 8

ひとこと要約

Scene-LLMは、エゴセントリックおよびシーンレベルの3D視覚情報をLLMバックボーンと融合させ、屋内シーンでの密集キャプション、3D-VQA、そして対話的計画を実現する3D視覚言語モデルであり、 extensive fine-tuningを伴わない強力なベンチマークを達成します。

ABSTRACT

This paper introduces Scene-LLM, a 3D-visual-language model that enhances embodied agents' abilities in interactive 3D indoor environments by integrating the reasoning strengths of Large Language Models (LLMs). Scene-LLM adopts a hybrid 3D visual feature representation, that incorporates dense spatial information and supports scene state updates. The model employs a projection layer to efficiently project these features in the pre-trained textual embedding space, enabling effective interpretation of 3D visual information. Unique to our approach is the integration of both scene-level and ego-centric 3D information. This combination is pivotal for interactive planning, where scene-level data supports global planning and ego-centric data is important for localization. Notably, we use ego-centric 3D frame features for feature alignment, an efficient technique that enhances the model's ability to align features of small objects within the scene. Our experiments with Scene-LLM demonstrate its strong capabilities in dense captioning, question answering, and interactive planning. We believe Scene-LLM advances the field of 3D visual understanding and reasoning, offering new possibilities for sophisticated agent interactions in indoor settings.

研究の動機と目的

エージェルド生態系を強力な3D視覚推論で装備させることをLLMsを活用して動機づける。
dense spatial informationを保持し、状態更新をサポートするハイブリッド3D視覚特徴表現を開発する。
dense 3D視覚特徴を軽量な射影層を介して前学習済みLLM埋め込みと整列させる。
Scene-LLMの3D-VQAベンチマークと対話的計画タスクでの優秀さを示す。
3D-視覚言語整合のためのスケーラブルなデータ生成パイプラインを提供する。

提案手法

3Dフレームとシーンからのdense spatial informationを符号化するハイブリッド3Dポイント-ボクセル表現を使用する。
軽量射影層を用いて3D特徴をLLM埋め込み空間にプロジェクトし、整列を行う。
2段階のトレーニング：ステージ1はデュアル座標系での3Dフレーム言語データを用いて射影層を事前学習させる；ステージ2はフレーム・シーン言語データで射影層とLLMの両方をファインチューニングする。
非対話生成または対話タスクのための2段階プロセスで推論を行い、エゴセントリックフレーム更新とシーン状態更新を含む。
整合と推論を支える大規模な3D-視覚言語データセットを生成する（≈190k frame-languageペア；≈500k scene-instructionペア）。
エゴセントリックとシーン中心の理解のために2つの座標系（カメラとワールド）を活用し、計画と局在化を改善する。

実験結果

リサーチクエスチョン

RQ1統合された3D視覚言語モデルは、対話的計画のためにエゴセントリック情報とシーンレベル情報を効果的に統合できるか？
RQ2ボクセルダウンサンプリングを伴う密集3D表現はLLMとの効果的な整合を支え、シーン変化をまたいだ状態更新を可能にするか？
RQ3Scene-LLMは3D-VQAベンチマークと対話的計画タスクで、従来の3D-VLMおよびLLMベースのプランナーと比較してどうであるか？
RQ4トレーニング戦略とデータモダリティ（フレームデータ vs シーンデータ）が整合と下流の推論に与える影響は何か？

主な発見

Scene-LLMは多くの指標でタスク特化型ファインチューニングなしでScanQAおよびSQA3Dで最先端の性能を達成。
最小限のステップでファインチューニングした場合、対話的計画のベンチマークで堅牢な結果を示し、高レベルの計画指標でベースラインを上回る。
デュアル座標系の dense 3D表現とボクセルベースのダウンサンプリングは、状態更新とLLMとの整合を効果的にサポートする。
エゴセントリック更新とシーンレベル更新の両方が堅牢な対話的計画には不可欠で、特に高レベル計画の正確性にはエゴセントリック更新が重要。
フレームデータの事前学習は収束を加速し、シーンのみの事前学習と比べて概念的理解を豊かにする。
軽量な射影層で3D特徴とLLMを橋渡しでき、重い視覚特徴抽出器を回避できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。