[论文解读] Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
作者在多种模型规模与安全干预下进行人工红队测试,发布了一个大型红队攻击数据集,并分析了扩展性趋势与危害,以为语言模型的安全实践提供依据。
We describe our early efforts to red team language models in order to simultaneously discover, measure, and attempt to reduce their potentially harmful outputs. We make three main contributions. First, we investigate scaling behaviors for red teaming across 3 model sizes (2.7B, 13B, and 52B parameters) and 4 model types: a plain language model (LM); an LM prompted to be helpful, honest, and harmless; an LM with rejection sampling; and a model trained to be helpful and harmless using reinforcement learning from human feedback (RLHF). We find that the RLHF models are increasingly difficult to red team as they scale, and we find a flat trend with scale for the other model types. Second, we release our dataset of 38,961 red team attacks for others to analyze and learn from. We provide our own analysis of the data and find a variety of harmful outputs, which range from offensive language to more subtly harmful non-violent unethical outputs. Third, we exhaustively describe our instructions, processes, statistical methodologies, and uncertainty about red teaming. We hope that this transparency accelerates our ability to work together as a community in order to develop shared norms, practices, and technical standards for how to red team language models.
研究动机与目标
- 研究红队有效性如何随模型规模和安全干预的变化而扩展。
- 量化红队暴露出的有害输出的类型和频率。
- 提供透明的方法学、数据集和指南,推动社区在红队测试方面的规范。
- 审查在更安全部署语言模型方面的局限性与政策含义。
提出的方法
- 对通用语言模型进行红队测试,通过开放式、主题聚焦的对话诱导有害输出。
- 比较四种模型类型:Plain LM、HHH 提示的 LM、拒绝采样(RS)以及基于 RLHF 的 HH 模型。
- 收集成对响应(更有害与较少有害),用于训练无害性偏好模型。
- 通过红队自评和来自偏好模型的有害性评分来衡量攻击成功度。
- 使用最低无害性分数来聚合有害性并分析不同模型类型与规模的分布。
- 发布一个包含38,961条红队攻击的数据集并提供附带文档。
实验结果
研究问题
- RQ1红队难度如何随模型规模以及不同安全干预(Plain LM、HHH 提示、RS、RLHF)变化而变化?
- RQ2发现的主要有害类型有哪些,以及它们在模型类型与规模上的聚类情况?
- RQ3无害性偏好模型在指导安全干预和减少有害输出方面的有效性如何?
- RQ4在大规模与众包工作者进行红队测试的局限性与伦理考量是什么?
主要发现
- 随着模型规模的增大,RLHF 模型变得越来越难以进行红队测试。
- Plain LM、HH 提示的 LM、以及 RS 模型在红队易感性上的规模呈现相对平坦的趋势。
- RS 模型在任何规模下都是最难以进行红队测试的,但往往因为规避而无害。
- RLHF 和 RS 干预减少平均有害性,但不能消除有害输出(分布尾部可见)。
- 发布包含38,961条红队攻击的数据集,便于更广泛的分析和工具开发。
- 有害类型包括攻击性语言、歧视、骚扰、错误信息以及个人可识别信息相关内容;聚类揭示了语义相关的攻击类别。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。