Skip to main content
QUICK REVIEW

[论文解读] When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment

Zhijing Jin, Sydney Levine|arXiv (Cornell University)|Oct 4, 2022
Topic Modeling被引用 25
一句话总结

提出 MoralExceptQA,这是一个道德例外挑战集,以及 MoralCoT,一种认知启发的提示策略,提升大型语言模型在规则违背情景中预测人类道德判断的能力,优于现有模型。

ABSTRACT

AI systems are becoming increasingly intertwined with human life. In order to effectively collaborate with humans and ensure safety, AI systems need to be able to understand, interpret and predict human moral judgments and decisions. Human moral judgments are often guided by rules, but not always. A central challenge for AI safety is capturing the flexibility of the human moral mind -- the ability to determine when a rule should be broken, especially in novel or unusual situations. In this paper, we present a novel challenge set consisting of rule-breaking question answering (RBQA) of cases that involve potentially permissible rule-breaking -- inspired by recent moral psychology studies. Using a state-of-the-art large language model (LLM) as a basis, we propose a novel moral chain of thought (MORALCOT) prompting strategy that combines the strengths of LLMs with theories of moral reasoning developed in cognitive science to predict human moral judgments. MORALCOT outperforms seven existing LLMs by 6.2% F1, suggesting that modeling human reasoning might be necessary to capture the flexibility of the human moral mind. We also conduct a detailed error analysis to suggest directions for future work to improve AI safety using RBQA. Our data is open-sourced at https://huggingface.co/datasets/feradauto/MoralExceptQA and code at https://github.com/feradauto/MoralCoT

研究动机与目标

  • 促使人工智能安全性研究关注建模灵活的人类道德判定与规则违背的情况。
  • 引入 MoralExceptQA,以基准测试大模型在对规则的道德可允许运行例外上的表现。
  • 开发一个认知启发的提示方法(MoralCoT),以在大型语言模型中诱导多步道德推理。
  • 证明 MoralCoT 相对于现有大模型在 MoralExceptQA 任务上的改进,并分析错误模式。

提出的方法

  • 将 MoralExceptQA 构建为一组具有挑战性的情景,测试打破既定规范的可允许性。
  • 将情景基于三类规范类别来设定(排队时不插队、不得干涉他人财产、以及一项新规则)。
  • 提出 MoralCoT:一个 N 步提示,征求规则功能、可允许运行评估,以及成本/收益考量。
  • 使用 InstructGPT 风格的模型实现提示,以生成类似链式思考的回答和最终二元判定。
  • 在多种基线模型(BERT、RoBERTa、ALBERT、Delphi、GPT-3 变体)上评估,使用 F1、准确度,以及与谨慎相关的指标(保守性、MAE、CE)。
  • 分析子问题表现和成本/收益推理,以诊断失败模式。

实验结果

研究问题

  • RQ1模型能否预测人类在新情景中是否应允许打破规则的判断?
  • RQ2一种认知启发的提示策略(MoralCoT)是否在建模道德灵活性方面优于现有的 LLM 提示?
  • RQ3当前大模型在道德例外推理中的主要失败模式是什么,如何改进?
  • RQ4在不同规范类别(越线、财产损害、新规则)中,LLMs 与人类判断的一致性如何?

主要发现

  • MoralCoT 在 MoralExceptQA 上优于所有基线 LLM,F1 为 64.47%,较 InstructGPT 提升 10.53%,较 Delphi++ 提升 6.2% F1。
  • 在模型之间,保守性差异很大,有些模型几乎始终坚持规则,而有些则过于宽松;MoralCoT 实现了更为平衡的保守性,为 66.96%。
  • 该任务揭示许多模型仍接近随机水平(约 50% F1),显现出在 AI 安全相关的道德推理方面的显著差距。
  • 子问题分析表明成本/收益和规则功能是模型的挑战性方面;解释往往与预测一致,但在具体上下文中有时具有事实上的细微差异。
  • MoralExceptQA 数据和 MoralCoT 代码/数据开放获取(数据集在 HuggingFace;代码在 GitHub)。
  • 错误分析强调在复杂社会情境中建模规则的潜在功能和目的的困难。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。