[논문 리뷰] Tracing Moral Foundations in Large Language Models
이 논문은 Layer-wise 표현, 희소 자동인코더, 그리고 인과적 조정을 사용하여 Moral Foundations Theory 개념이 두 개의 instruction-tuned LLM에서 어떻게 인코딩되는지 분석하고, 출력에 인과적으로 영향을 주는 다차원적이고 부분적으로 해체된 도덕 구조를 보임을 보여준다.
Large language models (LLMs) often produce human-like moral judgments, but it is unclear whether this reflects an internal conceptual structure or superficial ``moral mimicry.'' Using Moral Foundations Theory (MFT) as an analytic framework, we study how moral foundations are encoded, organized, and expressed within two instruction-tuned LLMs: Llama-3.1-8B-Instruct and Qwen2.5-7B-Instruct. We employ a multi-level approach combining (i) layer-wise analysis of MFT concept representations and their alignment with human moral perceptions, (ii) pretrained sparse autoencoders (SAEs) over the residual stream to identify sparse features that support moral concepts, and (iii) causal steering interventions using dense MFT vectors and sparse SAE features. We find that both models represent and distinguish moral foundations in a structured, layer-dependent way that aligns with human judgments. At a finer scale, SAE features show clear semantic links to specific foundations, suggesting partially disentangled mechanisms within shared representations. Finally, steering along either dense vectors or sparse features produces predictable shifts in foundation-relevant behavior, demonstrating a causal connection between internal representations and moral outputs. Together, our results provide mechanistic evidence that moral concepts in LLMs are distributed, layered, and partly disentangled, suggesting that pluralistic moral structure can emerge as a latent pattern from the statistical regularities of language alone.
연구 동기 및 목표
- LLMs가 표면 텍스트 모방을 넘어 인간과 정렬된 기하학적 구조로 도덕 개념을 내부적으로 조직하는지 여부를 조사한다.
- 두 개의 instruction-tuned LLM에서 Moral Foundations Theory의 기초에 대한 계층별 표현을 검토한다.
- 희소 자동인코더(SAEs)를 사용하여 밀집 도덕 방향을 해석 가능한 희소 특징으로 분해한다.
- Macro(기초 벡터) 및 micro(SAE 특징) 방향으로 모델 활성화를 조정하여 인과적 관련성을 확립한다.
- 영어 중심 모델(LLaMA)과 중국어 중심 모델(Qwen)을 비교하여 교차 문화적 변이를 평가한다.
제안 방법
- MFV-130 기반의 비네탕('vignettes')에서 계층별 대조를 통해 기초별 개념 벡터를 구성한다(마지막 토큰 잔여를 사용).
- Reddit Moral Foundations Corpus 게시물을 모델 활성화로 투영하여 프로젝션 점수와 Signed Wasserstein Distance (SW1)를 통해 정렬 정도를 평가한다.
- 사전 학습된 SAEs로 밀집 방향을 분해하여 각 기초와 정렬된 Top-K 특징을 식별한다.
- 대규모 웹 코퍼스에서 상위 활성 컨텍스트를 샘플링하고 인간/LLM 보조 해석으로 SAE 특징 의미를 확립한다.
- 추론 시점에서 거잔 스트림에 스케일링된 제어 벡터를 추가하여 Macro(기초 벡터) 및 Micro(SAE 특징) 개입을 수행한다.
- 조정 하에서 MFQ-2 점수의 변화를 통해 조정 효율성을 평가하고 일반적인 역량(MMLU)을 모니터링한다.
실험 결과
연구 질문
- RQ1LLMs가 인간의 도덕 판단과 정렬된 경향을 가진 분리 가능한 기하학적 방향으로 도덕 기초를 인코딩하는가?
- RQ2도덕 기초가 LLM 표현 내에서 해석 가능한 희소 특징으로 분해될 수 있는가?
- RQ3이 방향들에 따른 인과적 조정 개입이 모델의 도덕적 출출를 조절하는가, 그리고 이러한 효과가层/모델 의존적인가?
- RQ4WEIRD 대 비 WEIRD교차 문화적 변이가 LLM의 도덕 기초의 구분성과 조정에 어떤 영향을 미치는가?
주요 결과
- 모델 표현과 인간의 도덕 인식 간 강한 정렬성을 발견했으며, 특히 Care와 Sanctity에서 가장 강하고 최종 계층에서 가장 강한 구분성을 보인다.
- SAE 특징은 기초와 대응하는 해석 가능하고 원자적 메커니즘을 드러내며, 예를 들어 Care가 ‘physical suffering’과 ‘emotional distress’ 클러스터로 분해된다.
- Macro-조정은 기초 간 비대칭 조정 가능성을 보이며, LLaMA에서 Care, Sanctity, Fairness가 Loyalty와 Authority보다 더 민감하게 반응하고 Qwen에서도 비슷하게 나타난다.
- Micro-조정은 Top-K SAE 특징을 통해 Macro 방향이 사회 규범과 얽힌 기초의 경우 조정 가능성을 회복하거나 향상시킬 수 있으며, LLaMA에서 Authority/Loyalty에 대해 5.7배의 민감도 증가를 sometimes 보인다.
- Qwen에서는 기초 구분이 더 깔끔하고 Macro 조정이 종종 충분하지만, LLaMA는 미시적 조정으로 수정 가능한 정렬 관성을 보인다.
- 결과는 LLM에서 다차원적이고 부분적으로 해체된 도덕 구조를 지지하며 내부 표현과 도덕적 출력 간의 인과적 연결을 시연한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.