Skip to main content
QUICK REVIEW

[論文レビュー] RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads

Vijayasri Iyer, Maahin Rathinagiriswaran|arXiv (Cornell University)|Feb 13, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

RoadscapesQA は、物体検出、走行可能領域分割、画像レベルの VQA を含む約9千画像のインド道路のマルチタスク・マルチモーダル VQA データセットと、VQAタスクのゼロショットベースラインを導入します。

ABSTRACT

Understanding road scenes is essential for autonomous driving, as it enables systems to interpret visual surroundings to aid in effective decision-making. We present Roadscapes, a multitask multimodal dataset consisting of upto 9,000 images captured in diverse Indian driving environments, accompanied by manually verified bounding boxes. To facilitate scalable scene understanding, we employ rule-based heuristics to infer various scene attributes, which are subsequently used to generate question-answer (QA) pairs for tasks such as object grounding, reasoning, and scene understanding. The dataset includes a variety of scenes from urban and rural India, encompassing highways, service roads, village paths, and congested city streets, captured in both daytime and nighttime settings. Roadscapes has been curated to advance research on visual scene understanding in unstructured environments. In this paper, we describe the data collection and annotation process, present key dataset statistics, and provide initial baselines for image QA tasks using vision-language models.

研究の動機と目的

  • 運転中の未構造化インド道路環境(都市部、農村部、高速道路)における VQA ベンチマークのギャップを埋める。
  • 単眼動画、事前注釈、人間による検証、ヒューリスティックスを用いたスケーラブルなデータ収集・注釈パイプラインを提供する。
  • 多様な照明・状況で物体検出、走行可能領域の分割、画像レベルの VQA を促進する。
  • インド道路の物体数カウント、物体の説明、周囲の文脈説明を目的とした Vision-Language モデルの評価を可能にする。

提案手法

  • 前方カメラを用いてコインバトール–コーチィ間のルートと国道から約9k枚の単眼画像を収集する。
  • ルールベースのヒューリスティクスと大規模言語モデルから推定される Scene Graph を用いて、物体検出、走行可能領域分割、VQA を注釈する。
  • YOLOv5 ベースの検出器を用いてナンバープレートを匿名化し、手動のスポットチェックを行う。
  • 埋め込みベースと厳密一致のメトリクスを用いて、3つの VQA カテゴリでゼロショットのビジョン言語モデルを評価する。
Figure 1: A example of an image and corresponding questions from the VQA Dataset.
Figure 1: A example of an image and corresponding questions from the VQA Dataset.

実験結果

リサーチクエスチョン

  • RQ1ゼロショットのビジョン言語モデルは、インド道路の場面における物体数カウント、物体の記述、周囲の記述タスクでどの程度性能を示すか?
  • RQ2未構造の運転環境における現在の VLM の一般的な失敗モード(幻視、カウントエラー、属性エラー)は何か?
  • RQ3RoadscapesQA は多様性、照明、シーンタイプの点で既存の運転 VQA データセットと比較してどうか?
  • RQ4未構造なインド道路文脈における VQA のための基礎知識的洞察は、将来のモデル開発をどう導くか?

主な発見

  • Phi-3.5 は Object Counting の最高精度 0.667 を、4o-mini は 0.628 を達成。
  • Object Description の最高性能は Paligemma で 0.501 のコサイン類似度。
  • Surrounding Description の最高性能は 4o で 0.701 のコサイン類似度。
  • Object Description の幻視率はモデル間で高く、例: 50.8%–61.6%(258/500 から 308/500 の予測を修正); Object Counting は過計数・偽陽性が主な問題。
  • ゼロショット VQA はタスクごとに堅牢性が異なり、文脈推論(Surrounding Description)は、いくつかのモデルにとって細粒度属性タスクより一般的に信頼性が高い。
  • データセットは実世界のアーティファクト(モーションブラー、眩光、ウィンドシールドの反射)と未構造なインド道路状況を露呈し、VLM の信頼性の課題を浮き彫りにする。
Figure 2: A minimal working example to demonstrate how to place two images side-by-side.
Figure 2: A minimal working example to demonstrate how to place two images side-by-side.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。