[論文レビュー] LLM-MLFFN: Multi-Level Autonomous Driving Behavior Feature Fusion via Large Language Model
大規模言語モデルを用いた多層特徴融合ネットワーク(LLM-MLFFN)を提案し、数値的な運転特徴とLLM由来の意味表現を組み合わせてWaymoデータ上で自動運転挙動を高精度に分類する。
Accurate classification of autonomous vehicle (AV) driving behaviors is critical for safety validation, performance diagnosis, and traffic integration analysis. However, existing approaches primarily rely on numerical time-series modeling and often lack semantic abstraction, limiting interpretability and robustness in complex traffic environments. This paper presents LLM-MLFFN, a novel large language model (LLM)-enhanced multi-level feature fusion network designed to address the complexities of multi-dimensional driving data. The proposed LLM-MLFFN framework integrates priors from largescale pre-trained models and employs a multi-level approach to enhance classification accuracy. LLM-MLFFN comprises three core components: (1) a multi-level feature extraction module that extracts statistical, behavioral, and dynamic features to capture the quantitative aspects of driving behaviors; (2) a semantic description module that leverages LLMs to transform raw data into high-level semantic features; and (3) a dual-channel multi-level feature fusion network that combines numerical and semantic features using weighted attention mechanisms to improve robustness and prediction accuracy. Evaluation on the Waymo open trajectory dataset demonstrates the superior performance of the proposed LLM-MLFFN, achieving a classification accuracy of over 94%, surpassing existing machine learning models. Ablation studies further validate the critical contributions of multi-level fusion, feature extraction strategies, and LLM-derived semantic reasoning. These results suggest that integrating structured feature modeling with language-driven semantic abstraction provides a principled and interpretable pathway for robust autonomous driving behavior classification.
研究の動機と目的
- 短期軌跡を超える自動車挙動を、数値信号と意味解釈を統合して特徴づけ・分類する。
- 多層の数値特徴とLLM生成の意味記述を統合する robust な挙動分類フレームワークを開発する。
- Waymo軌跡データを用いて、従来の時系列分類器よりも精度と解釈性を向上させることを Demonstrate する。
提案手法
- 基礎統計量、運転挙動指標、動的相関の三つのレベルの数値特徴を抽出する。
- LLM(GPT-4o)を用いて、構造化プロンプトを介して数値特徴パターンを自然言語の意味記述に変換する。
- 意味埋め込み(RoBERTa利用)と数値特徴をデュアルチャネル注意機構ベースの融合ネットワークで結合し、MLPで分類する。
- クロスエントロピー損失、ドロップアウト、L2正則化を用いてエンドツーエンドで訓練する。AdamW最適化を用い、80/10/10の訓練/検証/テスト分割を採用する。
- accuracy、precision、recall、F1-score の評価指標を用い、マルチスケール畳み込み、時空間注意、意味特徴の寄与を評価するアブレーション研究を含む。
実験結果
リサーチクエスチョン
- RQ1数値的な運転特徴とLLM生成の意味特徴を組み合わせることで、挙動分類の精度は向上するか?
- RQ2多層特徴抽出とデュアルチャネル融合が予測性能と解釈性に与える影響はどの程度か?
- RQ3LLMsに基づく意味記述は、複雑な運転シナリオでの頑健性にどのように影響するか?
主な発見
| Model | Acc. | Pre. | Rec. | F1 |
|---|---|---|---|---|
| LSTM | 0.7166 | 0.8888 | 0.6227 | 0.8895 |
| MLP | 0.8321 | 0.8824 | 0.8584 | 0.8812 |
| FCN | 0.8075 | 0.7519 | 0.7915 | 0.6943 |
| LSTM-FCN | 0.8032 | 0.8909 | 0.8080 | 0.8934 |
| GRU-FCN | 0.6909 | 0.8877 | 0.5536 | 0.8893 |
| mWDN | 0.9005 | 0.8684 | 0.8595 | 0.8703 |
| MLSTM-FCN | 0.8182 | 0.8299 | 0.8003 | 0.8140 |
| TST | 0.7508 | 0.7701 | 0.7896 | 0.7347 |
| GAF-ViT | 0.9209 | 0.9219 | 0.8679 | 0.8850 |
| LLM-MLFFN (Ours) Non-Feat. | 0.9145 | 0.9430 | 0.9158 | 0.9464 |
| LLM-MLFFN (Ours) Feat. | 0.9145 | 0.9430 | 0.9135 | 0.9414 |
- LLM-MLFFN は Waymo 軌跡データに対して、ベースラインと比較して高い精度と適合率/再現率のバランスを達成する。
- アブレーションにより、時空間注意と多尺度畳み込みが性能を顕著に改善することが示された。
- 意味的特徴(LLM由来)と数値特徴の融合は、いずれかのモダリティ単独よりも優れている。
- 特徴エンジニアリングを抑えてもモデルは高い性能を示すが、両モダリティを組み合わせる際に最大の利益が得られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。