[论文解读] Scalable End-to-End Autonomous Vehicle Testing via Rare-event Simulation
该论文提出了一种可扩展的风险驱动仿真框架,通过使用自适应重要性采样,在基于物理的逼真仿真器中高效估计罕见事故概率,从而加速端到端自动驾驶车辆测试。该方法在朴素蒙特卡洛方法上实现了2–20倍的加速,在真实世界测试上实现了10–300倍的加速,其核心是通过数据驱动的方法学习人类交通行为的基分布,并迭代优化重要性采样分布,以聚焦于危险场景。
While recent developments in autonomous vehicle (AV) technology highlight substantial progress, we lack tools for rigorous and scalable testing. Real-world testing, the $ extit{de facto}$ evaluation environment, places the public in danger, and, due to the rare nature of accidents, will require billions of miles in order to statistically validate performance claims. We implement a simulation framework that can test an entire modern autonomous driving system, including, in particular, systems that employ deep-learning perception and control algorithms. Using adaptive importance-sampling methods to accelerate rare-event probability evaluation, we estimate the probability of an accident under a base distribution governing standard traffic behavior. We demonstrate our framework on a highway scenario, accelerating system evaluation by $2$-$20$ times over naive Monte Carlo sampling methods and $10$-$300 \mathsf{P}$ times (where $\mathsf{P}$ is the number of processors) over real-world testing.
研究动机与目标
- 为解决真实世界自动驾驶车辆测试所面临的高昂时间和安全成本,后者因罕见事故而需数十亿英里才能实现统计上的安全性验证。
- 克服形式化验证的局限性,后者在具有连续和离散动态的复杂混合系统中计算上不可行。
- 实现在真实交通条件下对端到端自动驾驶系统(包括深度学习感知与控制)的高效、可扩展评估。
- 开发一种基于概率风险的框架,基于标准交通行为的基分布来估计事故发生的概率。
- 通过自适应重要性采样识别并优先处理危险故障模式,即使基分布不完美也能实现。
提出的方法
- 该框架使用逼真图像渲染、基于物理的仿真器,生成各种环境下的感知输入(如视频、测距数据)和交通状况(如其他车辆、行人)。
- 通过从美国交通部交通数据中学习,采用基于模型的GAIL方法训练一组生成模型,构建人类驾驶策略的基分布 $ P_0 $,以建模标准交通行为。
- 将事故概率估计建模为罕见事件仿真问题:$ p_γ = \mathbb{P}_0(f(X) \leq \gamma) $,其中 $ f $ 衡量安全性,$ \gamma $ 为危险阈值。
- 采用交叉熵方法的自适应重要性采样,学习一个提议分布 $ P_\theta $,使其比 $ P_0 $ 更频繁地生成危险场景。
- 在每次迭代中,通过在对数空间求解凸优化问题来改进 $ P\_\theta $,从而在高维空间中提升采样效率并缓解数值不稳定性。
- 该框架支持使用ZeroMQ实现完全分布式的、超实时的滚动仿真,可在多个处理器上并行扩展评估。
实验结果
研究问题
- RQ1能否在具有深度学习感知与控制的端到端自动驾驶系统中,高效估计罕见事故发生的概率?
- RQ2如何在高维、复杂的自动驾驶仿真环境中有效应用自适应重要性采样,以加速罕见事件检测?
- RQ3当自动驾驶策略为黑箱时,所学习的基分布在多大程度上能支持可靠的安全部署评估?
- RQ4与朴素蒙特卡洛采样和真实世界测试相比,所提出的框架在效率和准确性方面表现如何?
- RQ5所提出的重要性采样分布是否不仅能加速罕见事件检测,还能根据基分布下的发生概率对故障模式进行排序?
主要发现
- 无论自车策略的复杂性如何,该框架在罕见事件检测方面相比朴素蒙特卡洛采样实现了2–20倍的加速。
- 相比真实世界测试,该框架实现了10–300倍的加速,且加速比随处理器数量 $ \mathsf{P} $ 增加而提升。
- 即使基分布 $ P_0 $ 存在误设,自适应重要性采样方法仍能成功识别危险场景,展现出对模型误差的鲁棒性。
- 所学习的重要性采样分布 $ P_\theta $ 不仅加速了采样过程,还能根据其在 $ P_0 $ 下的发生概率对故障模式进行排序,从而实现故障的优先级排序与系统改进。
- 仿真器支持完全分布式的、超实时的滚动仿真,使大规模安全性评估成为可能,并显著优于真实世界测试的安全性。
- 该方法可高效评估黑箱自动驾驶系统,包括具有深度学习感知与控制的系统,而这些系统对形式化验证而言是计算上不可行的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。