[论文解读] Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment
论文提出价值对齐税(VAT),一种框架,用于量化对目标价值的对齐干预在LLM中引发的系统性、随价值共变的迁移,而不仅是对目标的收益。
Existing work on value alignment typically characterizes value relations statically, ignoring how interventions - such as prompting, fine-tuning, or preference optimization - reshape the broader value system. We introduce the Value Alignment Tax (VAT), a framework that measures how alignment-induced changes propagate across interconnected values relative to achieved on-target gain. VAT captures the dynamics of value expression under alignment pressure. Using a controlled scenario-action dataset grounded in Schwartz value theory, we collect paired pre-post normative judgments and analyze alignment effects across models, values, and alignment strategies. Our results show that alignment often produces uneven, structured co-movement among values. These effects are invisible under conventional target-only evaluation, revealing systemic, process-level alignment risks and offering new insights into the dynamics of value alignment in LLMs.
研究动机与目标
- 说明为什么静态、特征层面的价值评估会错过LLM中的关系性权衡。
- 提出VAT,用于衡量对齐下的一阶价值变化和二阶价值共变。
- 构建一个大型、跨文化数据集(29,568个场景),在对齐前后引出价值表达判断。
- 演示不同对齐策略如何产生不同的VAT画像,并揭示系统性风险。
提出的方法
- 将Likert评估中的价值状态与变化形式形式化为跨Schwartz价值的带符号的规范证据向量。
- 基于价值跃迁轨迹定义收益、收益归一化离差(GND)以及两层VAT度量(价值层面和系统层面)。
- 构建一个两阶段数据集:阶段I(情景生成)和阶段II(基于价值的行动生成),使用固定提示以避免提示伪影。
- 在4个LLM上评估 steering、SFT、DPO 对56个微价值映射至10个Schwartz值的表现。
- 利用价值跃迁轨迹的斯皮尔曼相关性分析共变,推导VAT、nVAT和Gini集中度。

实验结果
研究问题
- RQ1如何在非目标价值上衡量目标价值提升与附带 shifts 之间的权衡?
- RQ2对齐如何改变LLM价值系统的关系结构,而不仅是对目标收益?
- RQ3对齐引发的价值共变是否反映出像Schwartz圆环那样的人类结构?
- RQ4不同对齐策略(steering、SFT、DPO)如何在收益-税之间的空间中穿行?
- RQ5VAT能否通过结构化、放大化的价值共变识别风险信号?
主要发现
- 具有相似目标收益的对齐干预,可能产生截然不同的系统层税(nVAT)。
- 在对齐下,价值协调往往并不均衡,且集中在协调枢纽如顺从、传统和安全周围。
- 不同的对齐策略沿着定性上不同的协调模式(SFT 与 DPO)穿越收益-税空间。
- VAT仅通过共变就能重构Schwartz圆环的几何结构,表明对齐引发的权衡与人类价值结构一致。
- 高VAT值在样本层面显示出更大的放大效应,VAT与可观测的行为偏差相关。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。