[論文レビュー] CRASH: Cognitive Reasoning Agent for Safety Hazards in Autonomous Driving
CRASHは2168件のNHTSA AV事故報告(2021–2025)を分析し、主要因とAVの寄与を帰属するLLMベースのエージェントで、専門家の適合性と拡張可能な構造化安全分析を実現。
As AVs grow in complexity and diversity, identifying the root causes of operational failures has become increasingly complex. The heterogeneity of system architectures across manufacturers, ranging from end-to-end to modular designs, together with variations in algorithms and integration strategies, limits the standardization of incident investigations and hinders systematic safety analysis. This work examines real-world AV incidents reported in the NHTSA database. We curate a dataset of 2,168 cases reported between 2021 and 2025, representing more than 80 million miles driven. To process this data, we introduce CRASH, Cognitive Reasoning Agent for Safety Hazards, an LLM-based agent that automates reasoning over crash reports by leveraging both standardized fields and unstructured narrative descriptions. CRASH operates on a unified representation of each incident to generate concise summaries, attribute a primary cause, and assess whether the AV materially contributed to the event. Our findings show that (1) CRASH attributes 64% of incidents to perception or planning failures, underscoring the importance of reasoning-based analysis for accurate fault attribution; and (2) approximately 50% of reported incidents involve rear-end collisions, highlighting a persistent and unresolved challenge in autonomous driving deployment. We further validate CRASH with five domain experts, achieving 86% accuracy in attributing AV system failures. Overall, CRASH demonstrates strong potential as a scalable and interpretable tool for automated crash analysis, providing actionable insights to support safety research and the continued development of autonomous driving systems.
研究の動機と目的
- 大規模なAV事故 narratives の手動レビューを超える構造化推論の自動化。
- 事故報告から主要因を帰属し、AVのサブシステムの不具合を特定する。
- 自動車が各事故に実質的に寄与したかを評価する。
- 安全研究と政策インサイトを支える、解釈可能な要約とデータ準備出力を提供する。
提案手法
- 2021–2025のNHTSA AV事故報告2,168件をキュレーション(約8000万マイル相当)。
- 前処理、処理(LLM推論)、後処理の3段階CRASHパイプラインを設計し、分析とシミュレーション準備出力を提供する。
- ドメイン特有のルールとワンショット例を用いた制約付きプロンプトベースのLLMアプローチで、信頼性の高いJSON形式の出力を保証する。
- AV事故原因の分類法を開発し、3つの広範なカテゴリ:システム障害、ヒューマン要因、環境条件を設定。
- 人間の専門家によるレビューを介して出力を検証し、2つのNLPベースライン(多数派クラスとキーワードルール)と比較する。
実験結果
リサーチクエスチョン
- RQ1CRASHは異質な事故 narratives からAVの責任を信頼性高く帰属できるか。
- RQ2CRASHの性能は主要因尺度で専門家判断およびベースラインNLP法とどの程度比較可能か。
- RQ3CRASHパイプラインは大規模な事故データセットを処理するのに拡張・要件満たす性能を持つか。
- RQ4大規模なNarrative分析からどのようなシステムレベルの安全パターン(例:レイテンシ、知覚障害)が現れるか。
主な発見
- 事故の64%は知覚または計画の障害(システム関連の推論)に起因。
- 報告された事故の約50%が追突によるもの。
- 専門家判断と比較した場合、AV責任の正確さ86%、遅延型AI検出84%、主要因帰属76%、失敗したサブシステム帰属46%を達成。
- 1件あたりの推論時間は約30秒(NVIDIA A4500 2台使用時)、手動レビューより高速な処理を実現。
- CRASHはベースライン手法(多数派クラスとキーワードルール)を、AV障害、遅延AI、原因、およびシステム障害の各次元で上回る(表4の結果)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。