QUICK REVIEW

[論文レビュー] LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

Royden Wagner, Ömer Şahin Taş|arXiv (Cornell University)|Mar 24, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

KITScenes LongTail dataset を紹介。多視点動画・高レベル指示・ multilingual reasoning traces を備え、長尾シナリオにおけるエンドツーエンド運転を研究。multi-maneuver score (MMS) を提案し、イン-context 学習と推論プロンプトを用いた vision-language モデルを評価。

ABSTRACT

In real-world domains such as self-driving, generalization to rare scenarios remains a fundamental challenge. To address this, we introduce a new dataset designed for end-to-end driving that focuses on long-tail driving events. We provide multi-view video data, trajectories, high-level instructions, and detailed reasoning traces, facilitating in-context learning and few-shot generalization. The resulting benchmark for multimodal models, such as VLMs and VLAs, goes beyond safety and comfort metrics by evaluating instruction following and semantic coherence between model outputs. The multilingual reasoning traces in English, Spanish, and Chinese are from domain experts with diverse cultural backgrounds. Thus, our dataset is a unique resource for studying how different forms of reasoning affect driving competence. Our dataset is available at: https://hf.co/datasets/kit-mrt/kitscenes-longtail

研究の動機と目的

長尾の運転イベントにおける意思決定の一般化を、知覚中心のベンチマークを超えて検討する。
英語・スペイン語・中国語での高レベルな運転指示と専門家の推論 traces による多視点動画データを提供する。
イン-context 学習と few-shot な一般化を、マルチモーダルモデルのエンドツーエンド運転で可能にする。
複数の想定未来にわたる安全性・快適性・指示遵守を評価するための multi-maneuver score (MMS) を導入する。

提案手法

同期化された六視点動画と360°フレームの stitching、加えて高レベル指示と多言語の専門家推論 traces を提供するデータセットを提供する。
推論 traces と計画された軌跡とのセマンティック整合性を EmbeddingGemma の埋め込みと Rocchio 分類を用いて定義・算出する。
複数の想定 maneuvers、快適性（ jerk と tortuosity ）、指示遵守を評価するための MMS を提案する。リACTIVE なクローズドループシミュレーションに依存しない。
ゼロショットおよび few-shot 設定でエンドツーエンド運転モデル（オープンソース VLMs/VLAs およびクローズドエンド-to-end ベースライン）を評価する。few-shot chain-of-thought prompts を含む。
推論 traces で記述された運転行動を運動モデルを用いて軌跡へ変換し、オープンソースモデルの性能を向上させる。

実験結果

リサーチクエスチョン

RQ1高レベルの指示と多言語の推論 traces が与えられたとき、マルチモーダルモデルは長尾の運転シナリオをどれだけ良く計画できるか。
RQ2few-shot prompting と few-shot CoT が長尾の運転タスクにおける計画品質と指示遵守を改善するか。
RQ3提案された MMS 指標は従来の L2 誤差およびエンドツーエンド運転における安全性・快適性・指示遵守とどのように相関するか。
RQ4推論 traces を用いて記述された動作と予測軌跡の意味的整合性を複数の maneuver にわたり評価できるか。

主な発見

MMS は DrivingScore より L2 誤差と相関し、長尾シナリオにおける安全性と操作可能性の妥当性をよりよく捉えることを示す。
オープンソースの VLM は few-shot および few-shot CoT prompting で substantial gains を示す。一方で CoT はこのデータで plain few-shot より劣る場合もある。
ゼロショットではクローズドソースまたは従来型のエンドツーエンドモデルが有利だが、few-shot および CoT prompts はオープンソースモデルの結果を改善する。
推論 traces による意味的整合性の評価が可能となり、CoT アクションを運動モデルで軌跡へ変換することでオープンソースモデルの性能が強化される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。