[论文解读] Dynasto: Validity-Aware Dynamic-Static Parameter Optimization for Autonomous Driving Testing
Dynasto 在有效性约束下联合优化动态对抗行为与静态初始条件,以揭示 ADS 测试中的现实、对安全关键的失效。它使用基于 STL 的有效性的强化学习、对初始条件的遗传算法,以及基于图的失效聚类。
Extensive simulation-based testing is important for assuring the safety of autonomous driving systems (ADS). However, generating safety-critical traffic scenarios remains challenging because failures often arise from rare, complex interactions with surrounding vehicles. Existing automatic scenario-generation approaches frequently fail to distinguish genuine ADS faults from collisions caused by implausible or invalid adversarial behaviors, and they typically optimize either scenario initialization or agent behavior in isolation. We propose Dynasto, a two-step testing approach that jointly optimizes initial scenario parameters and dynamic adversarial behaviors to uncover realistic safety-critical failures. First, we train an adversarial agent using reinforcement learning (RL) with temporal-logic-based validity criteria and a safe-distance model inspired by ISO 34502 to promote behaviorally plausible failures. Second, a genetic algorithm (GA) searches over initial conditions while replaying the adversary's failure-inducing behaviors to reveal additional failures that the RL agent alone does not uncover. Finally, a graph-based clustering pipeline groups failures into representative modes based on semantic event sequences. Our evaluation experiments in HighwayEnv across two ADS controllers show that Dynasto finds 60%-70% more valid failures than an RL-only adversary under the same evaluation budget. With clustering, we obtain about 12 interpretable failure modes per system under test, revealing valid failures driven by weaknesses in ego-controller behavior. These results indicate that coordinated dynamic-static optimization with explicit validity constraints is effective for exposing safety-relevant failures in ADS testing.
研究动机与目标
- 通过区分有效与无效失效,推动 ADS 测试中安全、现实的失效发现。
- 开发将动态对手优化与静态场景搜索耦合的两步测试工作流。
- 通过对失效进行聚类实现事后分析以得到可解释的模式。
提出的方法
- 训练一个具有基于有效性的奖励和基于 STL 的安全标准的对手强化学习,以生成有效失效。
- 使用遗传算法在静态初始条件上进行搜索,通过重放对手的触发失效动作,发现额外的失效。
- 应用与 ISO 34502 对齐的信号时序逻辑规则对有效/无效失效进行标注。
- 记录失效轨迹并应用基于图的聚类流程(kNN 图 + Leiden)以识别失效模式。
- 用事件序列表示失效,并在聚类中使用 Levenshtein 距离来衡量相似性。
- 使用问答接口将 GA 评估与 RL 驱动的失效轨迹整合。
实验结果
研究问题
- RQ1如何区分真实的 ADS 故障与在场景生成过程中由无效对手行为引起的崩溃?
- RQ2将动态(RL)与静态(GA)优化协同是否比仅 RL 更能发现有效且与安全相关的失效?
- RQ3后续聚类是否能从收集的轨迹中揭示可解释的失效模式?
- RQ4有效性约束对发现的失效的多样性与质量有多大影响?
- RQ5Leiden 聚类方法在将相似的失效轨迹分组为有意义模式方面有多有效?
主要发现
- 在相同评估预算下,Dynasto 比仅 DQN 的对手在有效失效发现上多出 60%–70%。
- 在被测试的系统中,大约可得到约 12 种可解释的失效模式。
- 事后分析将数百个失效聚合成由自车行为弱点驱动的连贯模式。
- 两步法通过在不同静态初始条件下重放对手的触发动作,扩展了仅 RL 的失效空间。
- 有效性语义和明确的安全约束显著提升所发现失效的现实性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。