[论文解读] Tracing Moral Foundations in Large Language Models
该论文分析了道德基础理论的概念如何在两种指令微调的大模型中通过层级表示、稀疏自编码器和因果引导进行编码,以展示多维、部分解耦的道德结构并因果性地影响输出。
Large language models (LLMs) often produce human-like moral judgments, but it is unclear whether this reflects an internal conceptual structure or superficial ``moral mimicry.'' Using Moral Foundations Theory (MFT) as an analytic framework, we study how moral foundations are encoded, organized, and expressed within two instruction-tuned LLMs: Llama-3.1-8B-Instruct and Qwen2.5-7B-Instruct. We employ a multi-level approach combining (i) layer-wise analysis of MFT concept representations and their alignment with human moral perceptions, (ii) pretrained sparse autoencoders (SAEs) over the residual stream to identify sparse features that support moral concepts, and (iii) causal steering interventions using dense MFT vectors and sparse SAE features. We find that both models represent and distinguish moral foundations in a structured, layer-dependent way that aligns with human judgments. At a finer scale, SAE features show clear semantic links to specific foundations, suggesting partially disentangled mechanisms within shared representations. Finally, steering along either dense vectors or sparse features produces predictable shifts in foundation-relevant behavior, demonstrating a causal connection between internal representations and moral outputs. Together, our results provide mechanistic evidence that moral concepts in LLMs are distributed, layered, and partly disentangled, suggesting that pluralistic moral structure can emerge as a latent pattern from the statistical regularities of language alone.
研究动机与目标
- 调查LLMs在内部是否将道德概念以超越表面文本模仿的、结构化且与人类对齐的几何形态组织起来。
- 检查两种指令微调的LLMs中道德基础理论基础的层级表示。
- 使用稀疏自编码器(SAEs)将密集的道德方向分解为可解释的稀疏特征。
- 通过沿宏观(基础向量)和微观(SAE特征)方向对模型激活进行引导来建立因果相关性。
- 通过将English-centric模型(LLaMA)与Chinese-centric模型(Qwen)进行比较,评估跨文化变异。
提出的方法
- 通过基于MFV-130的小插图进行逐层对比(最后一个令牌残差)来构建基础特定概念向量。
- 将Reddit道德基础语料库的帖子投射到模型激活中,以通过投影分数和Signed Wasserstein Distance(SW1)评估对齐。
- 使用预训练的SAEs分解密集方向,识别与各基础对齐的Top-K特征。
- 通过从大型网页语料库中采样最高激活上下文并结合人类/LLM辅助解释来为SAE特征语义提供依据。
- 在推理时通过将缩放后的控制向量添加到残差流来进行宏观(基础向量)和微观(SAE特征)干预。
- 通过MFQ-2分数的变化来评估引导效果,并在引导下监控一般能力(MMLU)。
实验结果
研究问题
- RQ1LLMs是否将道德基础编码为与人类道德判断对齐的可分离几何方向?
- RQ2道德基础是否可以在LLM表示中分解为可解释的稀疏特征?
- RQ3沿这些方向的因果引导干预是否能调节模型的道德输出,且是否受层级及模型的影响?
- RQ4跨文化(WEIRD 与非WEIRD)变异如何影响道德基础在LLMs中的可分离性和引导效应?
主要发现
- 在模型表示与人类道德感知之间存在较强对齐,Care与Sanctity对齐最强,最终层显示出最强的可分离性。
- SAE特征揭示了可解释的原子机制,与基础相对应,例如Care分解为‘身体痛苦’与‘情感痛苦’簇。
- 宏观引导在基础之间表现出不对称的可引导性,Care、Sanctity与Fairness比Loyalty和Authority在LLaMA及Qwen中更具响应性。
- 通过Top-K SAE特征的微观引导可以在宏观方向与社会规范纠缠的基础上挽救或增强引导的可控性,有时在Authority/Loyalty上实现5.7倍的敏感度提升(在LLaMA中)。
- 在Qwen中,基础可分离性更清晰,宏观引导往往足够,而LLaMA表现出对齐惯性,微观引导可缓解该惯性。
- 结果支持大模型中存在多维、部分解耦的道德结构,并证明内部表征与道德输出之间的因果联系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。