[論文レビュー] Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving
EM-VLM4ADは、ViTベースの画像パッチエンコーダとT5ベースの言語モデルを使用する自動運転QA向けの軽量なマルチフレームビジョン言語モデルで、ベースラインと比べてはるかに少ないパラメータ・メモリ・FLOPsで強力なQA性能を達成します。
Vision-Language Models (VLMs) and Multi-Modal Language models (MMLMs) have become prominent in autonomous driving research, as these models can provide interpretable textual reasoning and responses for end-to-end autonomous driving safety tasks using traffic scene images and other data modalities. However, current approaches to these systems use expensive large language model (LLM) backbones and image encoders, making such systems unsuitable for real-time autonomous driving systems where tight memory constraints exist and fast inference time is necessary. To address these previous issues, we develop EM-VLM4AD, an efficient, lightweight, multi-frame vision language model which performs Visual Question Answering for autonomous driving. In comparison to previous approaches, EM-VLM4AD requires at least 10 times less memory and floating point operations, while also achieving higher CIDEr and ROUGE-L scores than the existing baseline on the DriveLM dataset. EM-VLM4AD also exhibits the ability to extract relevant information from traffic views related to prompts and can answer questions for various autonomous driving subtasks. We release our code to train and evaluate our model at https://github.com/akshaygopalkr/EM-VLM4AD.
研究の動機と目的
- 自動運転におけるリアルタイムでメモリ効率の良いVLMの必要性を、十億パラメータ級のLLMへの依存を減らすことによって動機づける。
- 複数視点の画像埋め込みをQAタスクのための単一表現に融合する、軽量なマルチフレームVLMを開発する。
- DriveLMデータセット上で標準的なQA指標を用いて、DriveLMと比較した性能と効率を評価する。
提案手法
- ViT-B/32パッチ埋め込みを使用して6つのビュー固有の画像特徴を抽出する。
- ゲート付きプーリングアテンションを適用してマルチビュー埋め込みを単一の画像表現に融合する。
- 融合された画像埋め込みをテキスト埋め込みと連結し、軽量なT5ベースLM(Baseまたは8-bit LoRA-tuned Large)に入力する。
- 二段階のトレーニング:まずLMとパッチエンコーダを固定して画像埋め込みをLMに合わせる。次に画像エンコーダを固定したままLMをファインチューニングする。
- DriveLMデータセットを90/5/5の分割で学習し、BLEU-4, METEOR, ROUGE-L, CIDErで評価する。
実験結果
リサーチクエスチョン
- RQ1軽量なマルチフレームVLMは、自動運転タスクにおいてより大きなベースラインと比較して競争力のあるVisual Question Answering(VQA)性能を達成できるか?
- RQ2マルチビューVLMにおいて、小型のLM(T5-Base、LoRAを組み込んだ量子化T5-Large)を使用する場合のメモリと計算のトレードオフは何か?
- RQ3ゲート付きプーリングによるマルチビュー融合は、DriveLMの単一ビューのベースラインよりQA精度を向上させるか?
- RQ4認識・計画・自車挙動QAタスク全般でEM-VLM4ADの性能はどうか?
主な発見
| 表1 DriveLMテストセットの主な結果(QA指標) | ||||
|---|---|---|---|---|
| EM-VLM4AD_Base | 68.73 | 48.11 | 81.43 | 3.96 |
| EM-VLM4AD_Q-Large | 67.86 | 47.64 | 81.00 | 3.90 |
| DriveLM-Agent | 53.09 | 36.19 | 66.79 | 2.79 |
- EM-VLM4AD_BaseはテストセットでDriveLM-AgentよりBLEU-4 (68.73)とMETEOR (48.11)が高い。
- EM-VLM4AD_BaseはROUGE-L (81.43)とCIDEr (3.96)のスコアもベースラインより高い。
- EM-VLM4AD_Q-LargeはBLEU-4 67.86、METEOR 47.64、ROUGE-L 81.00、CIDEr 3.90を達成し、多くのベースラインより少ないメモリリソースを使用する。
- 両方のEM-VLM4ADバリアントは4指標すべてでDriveLM-Agentを上回り、パラメータ数とFLOPsを大幅に削減している。
- T5-Baseバックボーンが、試験した構成の中で総合的に最も良い性能を示す。
- ゲート付きプーリングアテンションによるマルチフレーム融合は、単一フレームのベースラインより性能向上に寄与する重要な要因である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。