Skip to main content
QUICK REVIEW

[論文レビュー] VLM-AutoDrive: Post-Training Vision-Language Models for Safety-Critical Autonomous Driving Events

Mohammad Qazim Bhat, Yufan Huang|arXiv (Cornell University)|Mar 18, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

モジュラー後学習フレームワーク(VLM-AutoDrive)は、 diverse multimodal supervision と chain-of-thought 推論を用いて事前学習済みの vision-language モデルを安全性が重要な運転イベント( Collision, Near-Collision )の検出へ適応させ、zero-shot ベースラインに対して substantial gain を達成する。

ABSTRACT

The rapid growth of ego-centric dashcam footage presents a major challenge for detecting safety-critical events such as collisions and near-collisions, scenarios that are brief, rare, and difficult for generic vision models to capture. While multimodal large language models (MLLMs) demonstrate strong general reasoning ability, they underperform in driving contexts due to domain and temporal misalignment. We introduce VLM-AutoDrive, a modular post-training framework for adapting pretrained Vision-Language Models (VLMs) to high-fidelity anomaly detection. The framework integrates metadata-derived captions, LLM-generated descriptions, visual question answering (VQA) pairs, and chain-of-thought (CoT) reasoning supervision to enable domain-aligned and interpretable learning. Off-the-shelf VLMs such as NVIDIA's Cosmos-Reason1 7B (CR1) exhibit near-zero Collision recall in zero-shot settings; fine-tuning with VLM-AutoDrive improves Collision F1 from 0.00 to 0.69 and overall accuracy from 35.35% to 77.27%. VLM-AutoDrive offers a scalable recipe for adapting general-purpose VLMs to safety-critical, temporally localized perception tasks. Evaluated on real-world Nexar dashcam videos, it achieves substantial gains in Collision and Near-Collision detection while producing interpretable reasoning traces, bridging the gap between perception, causality, and decision reasoning in autonomous driving.

研究の動機と目的

  • 高temporal-fidelity な運転異常検知における zero-shot VLM の制約を示す。
  • VLM をドメイン特有の運転タスクへ整合させる modular な post-training フレームワーク(VLM-AutoDrive)を提案する。
  • 時間的感度と解釈性を向上させる多様な supervision パイプライン(キャプション、VQA、MCQ、CoT 推論)を構築する。
  • Collision 検出以外の追加の運転異常にも拡張性を示す。

提案手法

  • 運転異常検知における事前学習済み VLM の zero-shot 性能を分析し、ドメインギャップを特定する。
  • マルチモーダル監視 signals(MCQ、キャプション、VQA、推論 traces)を用いた supervised fine-tuning(SFT)により base VLM をファインチューニングし、オプションで RL を併用する。
  • Nexar dashcam データから metadata-derived captions、LLM 出力、VQA ペア、推論 traces を含む大規模で多様なアノテーション・パイプラインを生成して学習を指導する。
  • ブレンディングされた 4–6 秒のクリップを作成するスライディングウィンドウのチャンク化戦略を用い、ブレークスルー事象を高フレームレートで捉え、クラス間のデータバランスを調整する。
Figure 1 : Sliding Window Chunking.
Figure 1 : Sliding Window Chunking.

実験結果

リサーチクエスチョン

  • RQ1一般目的の VLM は zero-shot 設定で安全性が重要な運転イベントを検出できるか、それともドメイン特化の適応が必要か。
  • RQ2推論情報を含む多 modal な supervision が ego-中心の dashcam 動画で衝突および near-collision の検出を改善するか。
  • RQ3どのデータ信号(キャプション、VQA、MCQ、CoT)が VLM を高い時間分解能の運転異常に効果的に対応させるか。
  • RQ4追加の運転異常クラスへ最小限の再訓練で拡張性はあるか。

主な発見

  • zero-shot VLM は domain adaptation なしでは Collision のリコールがほぼゼロに近い(運転文脈)。
  • VLM-AutoDrive を用いた後学習は Collision 検出を大幅に改善(例:Collision の F1 が 0.00 から 0.69 へ、いくつかのベースラインで)、全体精度も最大で報告設定で 77.27% へ向上。
  • 多様な supervision 信号(MCQ、キャプション、VQA)と推論 traces はファインチューニング中の chain-of-thought 能力を維持・強化し、解釈性を高めるのに寄与。
  • 高い temporal fidelity(30 FPS)とデータバランスの重要性が大きく、フレームレートの向上とクラスバランスの是正が最大の改善を生む。
  • Reasoning supervision(Reasoning MCQ と Reasoning VQA)は解釈可能な think traces を生み、分類精度を犠牲にせず推論モードの性能を改善できる。
  • このフレームワークは最小限の再訓練で追加の異常タイプを組み込む拡張性を示す。
Figure 2 : System Diagram.
Figure 2 : System Diagram.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。