[論文レビュー] Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment
要約: 本論文は Value Alignment Tax (VAT) を提案し、ターゲット値へのアライメント介入が、LLM の相互依存的な価値体系全体にわたる系統的で価値共変動を生じさせるシフトを、単なるターゲットの利得だけでなく定量化する枠組みを提供する。
Existing work on value alignment typically characterizes value relations statically, ignoring how interventions - such as prompting, fine-tuning, or preference optimization - reshape the broader value system. We introduce the Value Alignment Tax (VAT), a framework that measures how alignment-induced changes propagate across interconnected values relative to achieved on-target gain. VAT captures the dynamics of value expression under alignment pressure. Using a controlled scenario-action dataset grounded in Schwartz value theory, we collect paired pre-post normative judgments and analyze alignment effects across models, values, and alignment strategies. Our results show that alignment often produces uneven, structured co-movement among values. These effects are invisible under conventional target-only evaluation, revealing systemic, process-level alignment risks and offering new insights into the dynamics of value alignment in LLMs.
研究の動機と目的
- 静的・性質レベルの価値評価が LLM の関係的トレードオフを見逃す理由を動機づける。
- アライメント下での一次的価値シフトと二次的価値共変動の両方を測定するための VAT を提案する。
- アライメント前後の価値表現判断を引き出す大規模で跨文化的データセット(29,568 scenes)を構築する。
- 異なるアライメント戦略が異なる VAT プロファイルを生み出し、系統的リスクを明らかにする。
提案手法
- リッカート判断からの価値状態とシフトを、 Schwartz の価値観に基づく符号付き規範的証拠ベクトルへ形式化する。
- Gain、gain-normalized deviation (GND)、および二段階 VAT 指標(価値レベルとシステムレベル)を、価値シフトの軌跡に基づいて定義する。
- 二段階データセットを構築する:Stage I(シナリオ生成)と Stage II(価値条件付き行動生成)、プロンプトのアーティファクトを避けるため未変更のプロンプトを使用。
- 10 の Schwartz 値に対応する 56 のマイクロ値を、 steering、SFT、DPO の下で評価する。
- 価値シフトの軌跡の Spearman 相関を用いて共変動を分析し、VAT、nVAT、Gini 中央化を導出する。

実験結果
リサーチクエスチョン
- RQ1ターゲット値の改善と非ターゲット値の付随的シフトとのトレードオフをどう定量化するか?
- RQ2アライメントはターゲット利得以外の LLM の価値体系の関係構造をどう再形成するか?
- RQ3アライメントによる価値共変動は Schwartz circumplex のような人間の構造を反映するか?
- RQ4異なるアライメント戦略(steering、SFT、DPO)は gain–tax のトレードオフ空間をどう traversal するか?
- RQ5VAT は構造化され拡張された価値共変動を通じてリスク信号を識別できるか?
主な発見
- 同等のターゲット利得を持つ介入でも、システムレベルの税(nVAT)は大きく異なることがある。
- アライメント下の価値協調は不均一で、Conformity、Tradition、Security などの協調ハブ周辺に集中していることが多い。
- 異なるアライメント戦略は、SFT と DPO といった qualitatively distinct な協調モードに沿って gain–tax 空間を横断する。
- VAT は共変動のみから Schwartz circumplex の幾何を回収し、アライメントによるトレードオフが人間の価値構造と一致することを示唆する。
- 高い VAT 値はサンプルレベルでの増幅が大きいことを示し、VAT を観測可能な行動逸脱と結びつける。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。