Skip to main content
QUICK REVIEW

[论文解读] Evaluating the Moral Beliefs Encoded in LLMs

Nino Scherrer, Claudia Shi|arXiv (Cornell University)|Jul 26, 2023
Topic Modeling被引用 20
一句话总结

该论文提出一个统计框架来引出并量化编码在 LLMs 中的道德信念,构建 MoralChoice 调查,并分析 28 个模型在 1,367 种道德情景中的行动选择、不确定性和问题表述敏感性。

ABSTRACT

This paper presents a case study on the design, administration, post-processing, and evaluation of surveys on large language models (LLMs). It comprises two components: (1) A statistical method for eliciting beliefs encoded in LLMs. We introduce statistical measures and evaluation metrics that quantify the probability of an LLM "making a choice", the associated uncertainty, and the consistency of that choice. (2) We apply this method to study what moral beliefs are encoded in different LLMs, especially in ambiguous cases where the right choice is not obvious. We design a large-scale survey comprising 680 high-ambiguity moral scenarios (e.g., "Should I tell a white lie?") and 687 low-ambiguity moral scenarios (e.g., "Should I stop for a pedestrian on the road?"). Each scenario includes a description, two possible actions, and auxiliary labels indicating violated rules (e.g., "do not kill"). We administer the survey to 28 open- and closed-source LLMs. We find that (a) in unambiguous scenarios, most models "choose" actions that align with commonsense. In ambiguous cases, most models express uncertainty. (b) Some models are uncertain about choosing the commonsense action because their responses are sensitive to the question-wording. (c) Some models reflect clear preferences in ambiguous scenarios. Specifically, closed-source models tend to agree with each other.

研究动机与目标

  • 开发一套统计方法,通过 action likelihood 及相关指标来量化 LLMs 编码的道德信念。
  • 设计并部署 MoralChoice 调查,包含高模糊性和低模糊性的道德情景。
  • 创建 MoralChoice 数据集并对 28 个开源和闭源 LLMs 进行分析。
  • 研究模糊性和问题表述如何影响模型选择与不确定性。
  • 识别模型群组之间的一致性模式,以及在领先模型之间显著的强对齐。

提出的方法

  • 将 action likelihood 定义为在一个情景中,LLM 更偏好某一行动的概率,通过将 token 概率序列聚合为行动来实现。
  • 引入边际行动可能性以考虑对问题形式的敏感性,并定义相关的熵度量(行动熵、边际行动熵)。
  • 使用广义 Jensen-Shannon 散度开发 QF-C(question-form consistency),以及 QF-E(平均问题形式特定行动熵)以诊断鲁棒性和不确定性。
  • 通过对 token 序列的蒙特卡罗采样以及从序列到行动的基于规则的映射来估计这些量,其中 Z(x) 对提示形式使用简单的均匀分布。
  • 构建 MoralChoice,一个包含 1,767 个情景和来自 28 个 LLMs(开源和闭源) 的回答的调查数据集。
  • 系统地改变问题形式(A/B、Repeat、Compare)和行动排序,以减轻提示偏差,并报告无效/拒绝率。

实验结果

研究问题

  • RQ1大型语言模型通过在假设情景中的行动选择编码了哪些道德信念?
  • RQ2模糊性、问题措辞和提示形式如何影响 LLMs 表达的偏好和不确定性?
  • RQ3开源和闭源模型在道德判断上是否趋同还是分歧,以及造成这些模式的原因是什么?
  • RQ4所提出的指标(行动可能性、熵、QF-C、QF-E)能否揭示跨模型的不确定性与不一致性的来源?

主要发现

  • 在低模糊性的情景中,大多数 LLMs 输出的行动与常识一致。
  • 在高模糊性情景中,大多数 LLMs 对偏好哪一个行动表达不确定性。
  • 在模糊情景中,一些模型显示出明确偏好,在开源组内和 API 模型组内存在强烈的一致性。
  • 在 gpt-4、claude-v1.3、claude-instant-v1.1 和 text-bison-001 (PaLM 2) 之间存在显著强一致性。
  • 某些开源模型仍然不确定但保持一致,而一些 API 模型则表现出高确定性,并与人类对齐方向保持一致。
  • 提示和模板引起的不一致性影响若干较小的模型,凸显对问题形式的敏感性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。