QUICK REVIEW

[論文レビュー] Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models

Xinpeng Ding, Jinahua Han|arXiv (Cornell University)|Jan 2, 2024

Multimodal Machine Learning Applications被引用数 5

ひとこと要約

この論文は NuInstruct を紹介する。91K のマルチビュー動画QAデータセットは総合的な言語ベースの自動運転のためのもので、BEV-InMLLM は MV-MLLM に BEV特徴を注入して、時間的・マルチビュー・空間理解を向上させるプラグアンドプレイ手法である。

ABSTRACT

The rise of multimodal large language models (MLLMs) has spurred interest in language-based driving tasks. However, existing research typically focuses on limited tasks and often omits key multi-view and temporal information which is crucial for robust autonomous driving. To bridge these gaps, we introduce NuInstruct, a novel dataset with 91K multi-view video-QA pairs across 17 subtasks, where each task demands holistic information (e.g., temporal, multi-view, and spatial), significantly elevating the challenge level. To obtain NuInstruct, we propose a novel SQL-based method to generate instruction-response pairs automatically, which is inspired by the driving logical progression of humans. We further present BEV-InMLLM, an end-to-end method for efficiently deriving instruction-aware Bird's-Eye-View (BEV) features, language-aligned for large language models. BEV-InMLLM integrates multi-view, spatial awareness, and temporal semantics to enhance MLLMs' capabilities on NuInstruct tasks. Moreover, our proposed BEV injection module is a plug-and-play method for existing MLLMs. Our experiments on NuInstruct demonstrate that BEV-InMLLM significantly outperforms existing MLLMs, e.g. around 9% improvement on various tasks. We plan to release our NuInstruct for future research development.

研究の動機と目的

言語ベースの運転データセットとモデルにおけるタスクの断片性と情報不足のギャップに対処する。
時間情報・マルチビュー・空間的手がかりを捉えるため、17の運転サブタスクにわたる91Kのマルチビュー動画- QAペアを含む NuInstruct を作成する。
BEV特徴を用いてMV-MLLMを強化するBEV注入ベースのフレームワーク（BEV-InMLLM）を開発し、総合的な運転理解を実現する。
既存のMLLMに対して、マルチビュー入力とBEV情報をプラグアンドプレイで統合するエンドツーエンドのパイプラインを提供する。

提案手法

マルチビューQ-Formerを介してマルチビュー動画入力を処理するため、既存の多模態LLMを拡張するMV-MLLMを提案する。
指示対応型BEV特徴をMV-MLLMへ注入するBEV-InMLLMを導入し、時間情報・マルチビュー・空間情報を言語出力へ反映させられるようにする。
BEVトークン用に、指示認識型BEV Q-Formerを設計し、指示トークンとBEV特徴を融合させる。
2段階のBEV注入を使用: 固定されたBEVバックボーンでBEV特徴を抽出し、クロスアテンションを介してマルチビュー表現と融合させる。
基盤となるMLLMを凍結したまま、MV Q-Former・BEV Q-Former・注入モジュールのみを訓練する。
NuInstruct上の評価は、ベースラインと比べてBEV-InMLLMが総合的な運転タスクの性能を向上させることを示している。

実験結果

リサーチクエスチョン

RQ1全体的でマルチビューかつ時間的特徴を備えた言語モデルは、単一視点アプローチを超えて運転に焦点を当てたタスクの性能を向上させることができるか。
RQ2BEV情報をMV-MLLMsに注入することで、自動運転の文脈における空間的・距離感知タスクが向上するか。
RQ3提案されたSQLベースの NuInstruct データ生成は、運転タスクにおけるスケーラブルで高品質な指示-応答ペアにどのように寄与するか。
RQ4時間的・マルチビュー・空間的要素が、認識・予測・リスク・計画と推論タスクの性能向上にどの程度寄与するか。

主な発見

NuInstruct は 91,355 の指示-応答ペアを、17 のサブタスクにわたって提供し、マルチビュー・時間・距離・空間情報を含む。
MV-MLLM はマルチビュータスクを強化し、BEV-InMLLM は空間的・距離感知タスクをさらに向上させる。
BEV-InMLLM はベースラインに対して顕著な改善をもたらし、時間情報とマルチビュー情報がリスクと計画タスクで実質的な改善（約5–6%）を提供する。
MV-MLLMとBEVの組み合わせは、MV-MLLM単独よりも総合的な運転理解を向上させる。
BEV-InMLLM は NuInstruct の様々なタスクで最先端を最大9%上回す達成を示している（要約に記載）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。