QUICK REVIEW

[論文レビュー] Spatiotemporal Semantic V2X Framework for Cooperative Collision Prediction

Murat Arda Onsu, Poonam Lohan|arXiv (Cornell University)|Jan 23, 2026

Autonomous Vehicle Technology and Safety被引用数 0

ひとこと要約

論文は、RSUがV-JEPAを用いて動画から未来の埋め込みを予測し、車両へ圧縮された意味情報を伝送するセマンティックV2Xフレームワークを提案し、軽量分類器がオンボードで衝突を予測する。大幅にペイロードを削減しつつ高精度を達成する。

ABSTRACT

Intelligent Transportation Systems (ITS) demand real-time collision prediction to ensure road safety and reduce accident severity. Conventional approaches rely on transmitting raw video or high-dimensional sensory data from roadside units (RSUs) to vehicles, which is impractical under vehicular communication bandwidth and latency constraints. In this work, we propose a semantic V2X framework in which RSU-mounted cameras generate spatiotemporal semantic embeddings of future frames using the Video Joint Embedding Predictive Architecture (V-JEPA). To evaluate the system, we construct a digital twin of an urban traffic environment enabling the generation of d verse traffic scenarios with both safe and collision events. These embeddings of the future frame, extracted from V-JEPA, capture task-relevant traffic dynamics and are transmitted via V2X links to vehicles, where a lightweight attentive probe and classifier decode them to predict imminent collisions. By transmitting only semantic embeddings instead of raw frames, the proposed system significantly reduces communication overhead while maintaining predictive accuracy. Experimental results demonstrate that the framework with an appropriate processing method achieves a 10% F1-score improvement for collision prediction while reducing transmission requirements by four orders of magnitude compared to raw video. This validates the potential of semantic V2X communication to enable cooperative, real-time collision prediction in ITS.

研究の動機と目的

V2X帯域幅と遅延制約の下でITSにおける自発的な衝突予測を動機づける。
生データ映像ではなく未来フレーム埋め込みを伝送するセマンティックV2Xパイプラインを開発する。
トレーニングと評価のための多様な都市交通シナリオをデジタルツインで生成する。
ポスト処理がV-JEPA表現のタスク関連特徴抽出を向上させるかを評価する。

提案手法

RSUがV-JEPAを用いて未来フレームの時空埋め込みを抽出する。
RSUがV2Xリンクを介して車両へ単一の圧縮埋め込みを伝送する。
車両上の軽量のアテンティブ・プローブ分類器が埋め込みを解読して衝突リスクを予測する。
エンコード前にヒートマップ、バイナリマスク、またはハイブリッドなどのポスト処理でタスク関連領域を強調する。
デコーダの複雑さを低く保ち、車両ハードウェアでリアルタイム推論を可能にする。
生データ映像のペイロードを最大で5オーダー程度圧縮しつつ精度を維持する。

実験結果

リサーチクエスチョン

RQ1予測的な時空埋め込みはV2X通信におけるリアルタイムかつ帯域効率の高い衝突予測を可能にするか？
RQ2ポスト処理技術が埋め込み品質と衝突予測精度に与える影響はどの程度か？
RQ3デジタルツイン生成の都市交通環境において安全イベントと衝突イベントで提案セマンティックフレームワークはどう機能するか？
RQ4V2Xセマンティック通信におけるエンコーダ-デコーダ分割（RSU対車両）の計算量とレイテンシ特性はどうか？

主な発見

衝突予測において92%の精度を達成。
衝突予測でベースラインと比較してF1スコアを8%向上。
生データ映像と比較して通信ペイロードを約5桁減少させる。
様々な変調方式（例：QAM16）でもレイテンシをV2Xの5 ms閾値以下に維持。
ポスト処理を使用することでフレーム間隔の構成によってF1スコアを最大84%まで改善。
セマンティック埋め込みを用いた協調的でリアルタイムの衝突予測がV2Xで実現可能であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。