[论文解读] Risks of Practicing Large Language Models in Smart Grid: Threat Modeling and Validation
本论文分析智能电网中 LLM 的两种威胁模型——恶意数据注入与领域知识提取,并使用 GPT-3.5 和 GPT-4 进行验证,表明攻击者可以注入恶意数据并从智能电网 LLM 应用中提取领域知识。
Large language models (LLMs) represent significant breakthroughs in artificial intelligence and hold potential for applications within smart grids. However, as demonstrated in previous literature, AI technologies are susceptible to various types of attacks. It is crucial to investigate and evaluate the risks associated with LLMs before deploying them in critical infrastructure like smart grids. In this paper, we systematically evaluated the risks of LLMs and identified two major types of attacks relevant to potential smart grid LLM applications, presenting the corresponding threat models. We validated these attacks using popular LLMs and real smart grid data. Our validation demonstrates that attackers are capable of injecting bad data and retrieving domain knowledge from LLMs employed in different smart grid applications.
研究动机与目标
- 评估在智能电网情境中 LLM 与传统 AI 的差异并识别特定于 LLM 部署的风险类型。
- 提出两种通用的智能电网中 LLM 的威胁模型:恶意数据注入和领域知识提取。
- 通过使用流行的 LLM 与真实智能电网数据的实验证明所提出威胁。
- 提供开源数据、代码和评估结果,以实现复现实验和进一步研究。
提出的方法
- 描述在智能电网环境中 LLM 工作流和基于提示的交互。
- 为 LLM 定义两种威胁模型:通过公开接口对 LLM 的恶意数据注入,以及从领域特定提示中进行领域知识提取。
- 设计并使用真实数据集(可再生能源事件报告和 AMI 数据)进行基于 GPT-3.5 和 GPT-4 的验证实验。
- 使用分阶段攻击仿真来衡量在恶意输入下对分类/检测任务的影响。
- 用标准指标(准确率、精确率、召回率、F1)比较正常输入与注入输入的性能。
- 将数据、代码和结果发布到开源仓库以实现可重复性。
实验结果
研究问题
- RQ1在将 LLM 应用于智能电网任务时,与传统 ML 模型相比,LLM 引入了哪些漏洞?
- RQ2攻击者是否可以通过公共接口向基于 LLM 的智能电网应用注入恶意数据并降低性能?
- RQ3内部人员或攻击者是否能够从处理公用事业数据的 LLM 中提取领域知识(提示),泄露敏感信息?
- RQ4在现实的智能电网场景下,GPT-3.5 和 GPT-4 对这些威胁向量表现出抵抗力吗?
- RQ5需要哪些开源数据和工具来复现和拓展这些实验?
主要发现
| 结果 | 正常 | 注入-是 | 注入-否 | 注入-反向 |
|---|---|---|---|---|
| GPT-3.5 Accuracy | 89.1% | 47.7% | 52.2% | 33.5% |
| GPT-3.5 Precision | 87.8% | 47.7% | 0% | 34% |
| GPT-3.5 Recall | 89.6% | 100% | 0% | 41.5% |
| GPT-3.5 F1 | 88.7% | 64.6% | 0% | 37.4% |
| GPT-4 Accuracy | 93.8% | 48.9% | 52.2% | 43.4% |
| GPT-4 Precision | 94% | 48.3% | 0% | 45.4% |
| GPT-4 Recall | 93.1% | 100% | 0% | 91.1% |
| GPT-4 F1 | 93.5% | 65.1% | 0% | 60.1% |
- 攻击者在注入恶意数据时可以显著降低基于 LLM 的事件检测性能(例如,GPT-3.5:在反向注入下准确率从 89.1% 降至 33.5%)。
- GPT-4 对恶意数据注入显示出类似的脆弱性,在反向注入下准确率降至 43.4%。
- 在恶意数据注入下,若干情形的精确率和召回率显著下降,显示输出被操纵的风险。
- 通过巧妙的提示,领域知识提取可以导致 GPT-3.5 和 GPT-4 泄露聚合的领域信息,显示保密性风险。
- 正常输入情境下表现较高,但精心设计的输入会导致数据泄露或输出误导。
- 作者提供开源数据、代码和评估结果,以促进进一步研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。