[论文解读] Safety Analysis in the Era of Large Language Models: A Case Study of STPA using ChatGPT
论文评估使用 ChatGPT 对自动紧急制动(AEB)和电力需求侧管理(DSM)系统执行 STPA 安全分析,研究协作方案、输入复杂性和提示工程,并将结果与人工专家进行比较。
Can safety analysis make use of Large Language Models (LLMs)? A case study explores Systems Theoretic Process Analysis (STPA) applied to Automatic Emergency Brake (AEB) and Electricity Demand Side Management (DSM) systems using ChatGPT. We investigate how collaboration schemes, input semantic complexity, and prompt guidelines influence STPA results. Comparative results show that using ChatGPT without human intervention may be inadequate due to reliability related issues, but with careful design, it may outperform human experts. No statistically significant differences are found when varying the input semantic complexity or using common prompt guidelines, which suggests the necessity for developing domain-specific prompt engineering. We also highlight future challenges, including concerns about LLM trustworthiness and the necessity for standardisation and regulation in this domain.
研究动机与目标
- 评估 ChatGPT 是否能够在复杂安全关键系统的 STPA 安全分析中提供帮助。
- 比较人类与 ChatGPT 在 STPA 工作流中的不同协作方案。
- 研究输入语义复杂度对 STPA 输出的影响。
- 评估域无关提示与 STPA 专用提示对 STPA 结果的影响。
提出的方法
- 将三种协作方案(一次性单驱动、循环单驱动、循环双驱动)应用于将 ChatGPT 融入 AEB 与 DSM 基线的 STPA。
- 以人工专家的 STPA 结果作为对比基线。
- 改变控制回路结构的输入语义复杂度(低/中/高)以及提示类型(域无关 vs STPA 专用),并衡量 UCA 的正确性。
- 进行 Tukey-Kramer 统计检验,评估在不同条件下综合性和相关性(pertinence)方面的差异。
实验结果
研究问题
- RQ1RQ1:将 ChatGPT 融入 STPA 的不同协作方案如何影响有效性和可用性?
- RQ2RQ2:对 ChatGPT 的输入问题语义复杂度变化在多大程度上影响 STPA 结果?
- RQ3RQ3:域无关提示与 STPA 专用提示工程是否影响 STPA 结果的全面性和相关性?
主要发现
- 在没有人工干预的情况下,ChatGPT 对 STPA 结果不可靠,但在经过精心设计后可超过人类表现。
- 更多的人机互动(循环双驱动)比其他方案产生更全面的UCA,但代价是较高的工作量。
- 输入语义复杂度对结果未显示统计显著差异。
- STPA 专用提示显著提高相关性,但输出更加保守且不够全面。
- 域无关提示在某些衡量指标上能产生比 STPA 专用提示更多的 UCA,提示设计对结果有影响。
- 所有实验数据公开可获取。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。