[论文解读] Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems
本文提出了一个面向模块的风险分类法用于 LLM 系统,分析按输入、模型、工具链和输出模块的风险,并综述针对安全与保安的缓解策略与基准测试。
Large language models (LLMs) have strong capabilities in solving diverse natural language processing tasks. However, the safety and security issues of LLM systems have become the major obstacle to their widespread application. Many studies have extensively investigated risks in LLM systems and developed the corresponding mitigation strategies. Leading-edge enterprises such as OpenAI, Google, Meta, and Anthropic have also made lots of efforts on responsible LLMs. Therefore, there is a growing need to organize the existing studies and establish comprehensive taxonomies for the community. In this paper, we delve into four essential modules of an LLM system, including an input module for receiving prompts, a language model trained on extensive corpora, a toolchain module for development and deployment, and an output module for exporting LLM-generated content. Based on this, we propose a comprehensive taxonomy, which systematically analyzes potential risks associated with each module of an LLM system and discusses the corresponding mitigation strategies. Furthermore, we review prevalent benchmarks, aiming to facilitate the risk assessment of LLM systems. We hope that this paper can help LLM participants embrace a systematic perspective to build their responsible LLM systems.
研究动机与目标
- 提供对 LLM 系统每个模块的风险及缓解方法的全面综述。
- 提出一种面向模块的分类法,将风险归因于特定的 LLM 系统模块。
- 通过覆盖工具链安全以及更广泛的风险范围来扩展既有分类法。
- 总结用于评估 LLM 系统安全与安保的基准测试。
提出的方法
- 建立一个将风险与输入、语言模型、工具链和输出模块关联的面向模块的分类法。
- 对这四个模块的风险与缓解策略进行综述。
- 评述现有的用于评估 LLM 系统风险的基准。
- 说明该分类法如何帮助识别根本原因及有效的缓解措施。

实验结果
研究问题
- RQ1与 LLM 系统各模块相关联的风险是什么?
- RQ2面向模块的分类法如何帮助在 LLM 安全与安保的缓解与评估中发挥作用?
- RQ3存在哪些用于评估 LLM 系统安全与安保的基准?
- RQ4缓解策略在输入、模型、工具链与输出模块之间如何变化?
主要发现
- 覆盖四个 LLM 模块、涵盖 12 个风险主题与 44 个子类别风险主题的全面分类法。
- 在输入模块中识别出包括 NSFW(不适宜工作场景)和对抗性提示等风险、模型相关的隐私与偏见问题、工具链脆弱性以及输出内容风险。
- 讨论针对每个模块的定制缓解策略,包括输入端的安全措施、模型对齐、工具链加固以及输出审核。
- 对用于评估 LLM 系统安全与安保的流行基准进行评述。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。