Skip to main content
QUICK REVIEW

[论文解读] Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment

Jiajun Chen, Hua Shen|arXiv (Cornell University)|Feb 12, 2026
Service and Product Innovation被引用 0
一句话总结

论文提出价值对齐税(VAT),一种框架,用于量化对目标价值的对齐干预在LLM中引发的系统性、随价值共变的迁移,而不仅是对目标的收益。

ABSTRACT

Existing work on value alignment typically characterizes value relations statically, ignoring how interventions - such as prompting, fine-tuning, or preference optimization - reshape the broader value system. We introduce the Value Alignment Tax (VAT), a framework that measures how alignment-induced changes propagate across interconnected values relative to achieved on-target gain. VAT captures the dynamics of value expression under alignment pressure. Using a controlled scenario-action dataset grounded in Schwartz value theory, we collect paired pre-post normative judgments and analyze alignment effects across models, values, and alignment strategies. Our results show that alignment often produces uneven, structured co-movement among values. These effects are invisible under conventional target-only evaluation, revealing systemic, process-level alignment risks and offering new insights into the dynamics of value alignment in LLMs.

研究动机与目标

  • 说明为什么静态、特征层面的价值评估会错过LLM中的关系性权衡。
  • 提出VAT,用于衡量对齐下的一阶价值变化和二阶价值共变。
  • 构建一个大型、跨文化数据集(29,568个场景),在对齐前后引出价值表达判断。
  • 演示不同对齐策略如何产生不同的VAT画像,并揭示系统性风险。

提出的方法

  • 将Likert评估中的价值状态与变化形式形式化为跨Schwartz价值的带符号的规范证据向量。
  • 基于价值跃迁轨迹定义收益、收益归一化离差(GND)以及两层VAT度量(价值层面和系统层面)。
  • 构建一个两阶段数据集:阶段I(情景生成)和阶段II(基于价值的行动生成),使用固定提示以避免提示伪影。
  • 在4个LLM上评估 steering、SFT、DPO 对56个微价值映射至10个Schwartz值的表现。
  • 利用价值跃迁轨迹的斯皮尔曼相关性分析共变,推导VAT、nVAT和Gini集中度。
Figure 1: Illustration of Value Alignment Tax . Traditional trait-level evaluation reports independent value scores, whereas VAT elicits state-level value configurations and models values as a relational system, revealing alignment-induced trade-offs. Edge direction denotes influence; width indicate
Figure 1: Illustration of Value Alignment Tax . Traditional trait-level evaluation reports independent value scores, whereas VAT elicits state-level value configurations and models values as a relational system, revealing alignment-induced trade-offs. Edge direction denotes influence; width indicate

实验结果

研究问题

  • RQ1如何在非目标价值上衡量目标价值提升与附带 shifts 之间的权衡?
  • RQ2对齐如何改变LLM价值系统的关系结构,而不仅是对目标收益?
  • RQ3对齐引发的价值共变是否反映出像Schwartz圆环那样的人类结构?
  • RQ4不同对齐策略(steering、SFT、DPO)如何在收益-税之间的空间中穿行?
  • RQ5VAT能否通过结构化、放大化的价值共变识别风险信号?

主要发现

  • 具有相似目标收益的对齐干预,可能产生截然不同的系统层税(nVAT)。
  • 在对齐下,价值协调往往并不均衡,且集中在协调枢纽如顺从、传统和安全周围。
  • 不同的对齐策略沿着定性上不同的协调模式(SFT 与 DPO)穿越收益-税空间。
  • VAT仅通过共变就能重构Schwartz圆环的几何结构,表明对齐引发的权衡与人类价值结构一致。
  • 高VAT值在样本层面显示出更大的放大效应,VAT与可观测的行为偏差相关。
((a))
((a))

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。