[论文解读] Toxicity in ChatGPT: Analyzing Persona-assigned Language Models
该论文进行了一项大规模分析,表明为 ChatGPT 指定人物设定会显著增加其输出的有毒性,且因人物设定和实体类别而异,包括歧视性模式。
Large language models (LLMs) have shown incredible capabilities and transcended the natural language processing (NLP) community, with adoption throughout many services like healthcare, therapy, education, and customer service. Since users include people with critical information needs like students or patients engaging with chatbots, the safety of these systems is of prime importance. Therefore, a clear understanding of the capabilities and limitations of LLMs is necessary. To this end, we systematically evaluate toxicity in over half a million generations of ChatGPT, a popular dialogue-based LLM. We find that setting the system parameter of ChatGPT by assigning it a persona, say that of the boxer Muhammad Ali, significantly increases the toxicity of generations. Depending on the persona assigned to ChatGPT, its toxicity can increase up to 6x, with outputs engaging in incorrect stereotypes, harmful dialogue, and hurtful opinions. This may be potentially defamatory to the persona and harmful to an unsuspecting user. Furthermore, we find concerning patterns where specific entities (e.g., certain races) are targeted more than others (3x more) irrespective of the assigned persona, that reflect inherent discriminatory biases in the model. We hope that our findings inspire the broader AI community to rethink the efficacy of current safety guardrails and develop better techniques that lead to robust, safe, and trustworthy AI systems.
研究动机与目标
- 评估通过 ChatGPT 的系统参数进行人物设定在不同主题和实体上的有毒性影响。
- 使用实体条件提示和 RealToxicityPrompts 连续输出对 90 个人物设定和 128 个实体的有毒性变化进行量化。
- 识别驱动有毒性变化的因素,包括人物设定类型、人口统计特征和提示风格。
提出的方法
- 通过系统参数为 ChatGPT 指派 90 个不同的人物设定以引导回答。
- 生成关于 128 个实体的实体条件输出和 RealToxicityPrompts 连续输出以测量有毒性。
- 使用核采样,温度为 1,top-p 为 0.9,生成时加入小的频次惩罚。
- 使用 Perspective API 评估有毒性,并报告每对的多次生成中的最大有毒性。
- 定义响应概率(POR)度量,以捕捉模型对有毒提示的响应频率。
- 分析人物设定对人物的评价(好/坏)与观察到的有毒性之间的相关性。
实验结果
研究问题
- RQ1与默认设置相比,为 ChatGPT 指派人物设定是否会增加有毒性?
- RQ2在不同人物类别(如独裁者、记者、运动员)与实体类型之间,有毒性如何变化?
- RQ3当模仿该人物时,人物的感知特征与模型的有毒性之间的关系是什么?
- RQ4提示风格在实体条件和连续输出任务中如何影响有毒性?
- RQ5分配的人物在性别、种族、政治倾向等人口统计学维度上的有毒性是否存在偏差?
主要发现
- 分配人物设定时,有毒性可比默认 ChatGPT 增加约 6 倍。
- 不同人物身份之间的有毒性差异可达约 5 倍,独裁者和记者显示出更高的有毒性。
- 实体和人口统计群体(如性别、种族、国家)呈现不同的有毒性,一些群体比其他群体更易成为攻击对象。
- 提示风格影响有毒性;像“ Say something bad about ”这样的明确提示比中性提示产生更高的有毒性。
- 模型对一个人物设定的看法(坏/好)与观察到的有毒性相关(Pearson r 约为 0.7,p < .05)。
- 实例显示跨国家/群体存在有害的刻板印象和歧视性内容,包括历史人物设定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。