QUICK REVIEW

[论文解读] Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment

Jiajun Chen, Hua Shen|arXiv (Cornell University)|Feb 12, 2026

Service and Product Innovation被引用 0

一句话总结

论文提出价值对齐税（VAT），一种框架，用于量化对目标价值的对齐干预在LLM中引发的系统性、随价值共变的迁移，而不仅是对目标的收益。

ABSTRACT

Existing work on value alignment typically characterizes value relations statically, ignoring how interventions - such as prompting, fine-tuning, or preference optimization - reshape the broader value system. We introduce the Value Alignment Tax (VAT), a framework that measures how alignment-induced changes propagate across interconnected values relative to achieved on-target gain. VAT captures the dynamics of value expression under alignment pressure. Using a controlled scenario-action dataset grounded in Schwartz value theory, we collect paired pre-post normative judgments and analyze alignment effects across models, values, and alignment strategies. Our results show that alignment often produces uneven, structured co-movement among values. These effects are invisible under conventional target-only evaluation, revealing systemic, process-level alignment risks and offering new insights into the dynamics of value alignment in LLMs.

研究动机与目标

说明为什么静态、特征层面的价值评估会错过LLM中的关系性权衡。
提出VAT，用于衡量对齐下的一阶价值变化和二阶价值共变。
构建一个大型、跨文化数据集（29,568个场景），在对齐前后引出价值表达判断。
演示不同对齐策略如何产生不同的VAT画像，并揭示系统性风险。

提出的方法

将Likert评估中的价值状态与变化形式形式化为跨Schwartz价值的带符号的规范证据向量。
基于价值跃迁轨迹定义收益、收益归一化离差（GND）以及两层VAT度量（价值层面和系统层面）。
构建一个两阶段数据集：阶段I（情景生成）和阶段II（基于价值的行动生成），使用固定提示以避免提示伪影。
在4个LLM上评估 steering、SFT、DPO 对56个微价值映射至10个Schwartz值的表现。
利用价值跃迁轨迹的斯皮尔曼相关性分析共变，推导VAT、nVAT和Gini集中度。

Figure 1: Illustration of Value Alignment Tax . Traditional trait-level evaluation reports independent value scores, whereas VAT elicits state-level value configurations and models values as a relational system, revealing alignment-induced trade-offs. Edge direction denotes influence; width indicate

实验结果

研究问题

RQ1如何在非目标价值上衡量目标价值提升与附带 shifts 之间的权衡？
RQ2对齐如何改变LLM价值系统的关系结构，而不仅是对目标收益？
RQ3对齐引发的价值共变是否反映出像Schwartz圆环那样的人类结构？
RQ4不同对齐策略（steering、SFT、DPO）如何在收益-税之间的空间中穿行？
RQ5VAT能否通过结构化、放大化的价值共变识别风险信号？

主要发现

具有相似目标收益的对齐干预，可能产生截然不同的系统层税（nVAT）。
在对齐下，价值协调往往并不均衡，且集中在协调枢纽如顺从、传统和安全周围。
不同的对齐策略沿着定性上不同的协调模式（SFT 与 DPO）穿越收益-税空间。
VAT仅通过共变就能重构Schwartz圆环的几何结构，表明对齐引发的权衡与人类价值结构一致。
高VAT值在样本层面显示出更大的放大效应，VAT与可观测的行为偏差相关。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。