[논문 리뷰] Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment
이 논문은 Value Alignment Tax(VAT)를 도입하여 목표 값에 대한 정렬 개입이 LLM의 상호 의존적 가치 체계 전반에서 시스템적이고 가치 공변적인 변화를 유도하는 정도를 정량화하는 프레임워크를 제시합니다. 이는 목표 이득뿐만 아니라 시스템 차원의 변화를 포함합니다.
Existing work on value alignment typically characterizes value relations statically, ignoring how interventions - such as prompting, fine-tuning, or preference optimization - reshape the broader value system. We introduce the Value Alignment Tax (VAT), a framework that measures how alignment-induced changes propagate across interconnected values relative to achieved on-target gain. VAT captures the dynamics of value expression under alignment pressure. Using a controlled scenario-action dataset grounded in Schwartz value theory, we collect paired pre-post normative judgments and analyze alignment effects across models, values, and alignment strategies. Our results show that alignment often produces uneven, structured co-movement among values. These effects are invisible under conventional target-only evaluation, revealing systemic, process-level alignment risks and offering new insights into the dynamics of value alignment in LLMs.
연구 동기 및 목표
- 정적이고 특성 수준의 가치 평가가 LLM의 관계형 트레이드를 어떻게 놓치는지 동기를 부여한다.
- 정렬 하에서의 1차 가치 변화와 2차 가치 공변 모두를 측정하기 위해 VAT를 제안한다.
- 정렬 전후의 가치 표현 판단을 이끌어내기 위해 29,568개의 장면으로 구성된 크고 다문화 데이터셋을 구축한다.
- 다양한 정렬 전략이 서로 다른 VAT 프로필을 유도하고 시스템적 위험을 드러내는지 보여준다.
제안 방법
- 리커트 척도 판단으로부터의 가치 상태와 변화를 Schwartz 가치에 따른 부호화 규범적 증거 벡터로 형식화한다.
- Gain, gain-normalized deviation(GND), 그리고 값-변동 궤적에 기반한 두 수준의 VAT 지표(가치 수준 및 시스템 수준)를 정의한다.
- 프롬프트 편향을 피하기 위해 고정 프롬프트를 사용한 단계적 데이터셋 두 단계 구성: Stage I(시나리오 생성) 및 Stage II(가치 조건부 행동 생성).
- 스티어링, SFT, DPO 하에서 4개의 LLM을 56개의 미시 가치를 10개의 Schwartz 가치에 매핑하여 평가한다.
- 가치-변동 궤적의 스피어만 상관관계를 통해 공변성을 분석하고 VAT, nVAT, 그리고 중심화의 지니 계수를 도출한다.

실험 결과
연구 질문
- RQ1목표 가치의 개선과 비목표 가치의 부수적 변화 간의 트레이드를 어떻게 정량화할 수 있는가?
- RQ2정렬이 대상 이득을 넘어서 LLM의 가치 시스템의 관계 구조를 어떻게 재구성하는가?
- RQ3정렬에 의해 유도된 가치 공변은 Schwartz circumpful 같은 인간 구조를 반영하는가?
- RQ4다양한 정렬 전략(스티어링, SFT, DPO)이 Gain–Tax 트레이드오프 공간을 어떻게 따라가는가?
- RQ5VAT가 구조화되고 증폭된 가치 공변을 통해 위험 신호를 식별할 수 있는가?
주요 결과
- 유사한 목표 이득을 가진 정렬 개입이라도 시스템 수준의 세금(nVAT)은 상당히 다를 수 있다.
- 정렬 하의 가치 조정은 종종 불균등하며 Conformity, Tradition, Security와 같은 조정 허브를 중심으로 집중된다.
- 다양한 정렬 전략은 Gain–Tax 공간을 질적으로 서로 다른 조정 모드(SFT와 DPO)로 횡단한다.
- VAT는 공변성만으로 Schwartz circumplex의 기하학을 복원해내며, 정렬로 인한 트레이드오프가 인간의 가치 구조와 일치함을 시사한다.
- 높은 VAT 값을 가지는 사례에서 샘플 수준에서의 증폭이 더 크며, VAT를 관찰 가능한 행동 편차와 연결한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.