Skip to main content
QUICK REVIEW

[論文レビュー] Tracing Moral Foundations in Large Language Models

Chenxiao Yu, Bowen Yi|arXiv (Cornell University)|Jan 9, 2026
Computational and Text Analysis Methods被引用数 0
ひとこと要約

要約: 本論文は、2つの指示調整済みLLMにおける層別表現、スパースオート encoder、因果的 steering を用いて、道徳的基盤理論(Moral Foundations Theory)の概念が内部的にどのようにエンコードされているかを分析し、多次元で部分的に disentangled な道徳構造が出力に因果的影響を与えることを示す。

ABSTRACT

Large language models (LLMs) often produce human-like moral judgments, but it is unclear whether this reflects an internal conceptual structure or superficial ``moral mimicry.'' Using Moral Foundations Theory (MFT) as an analytic framework, we study how moral foundations are encoded, organized, and expressed within two instruction-tuned LLMs: Llama-3.1-8B-Instruct and Qwen2.5-7B-Instruct. We employ a multi-level approach combining (i) layer-wise analysis of MFT concept representations and their alignment with human moral perceptions, (ii) pretrained sparse autoencoders (SAEs) over the residual stream to identify sparse features that support moral concepts, and (iii) causal steering interventions using dense MFT vectors and sparse SAE features. We find that both models represent and distinguish moral foundations in a structured, layer-dependent way that aligns with human judgments. At a finer scale, SAE features show clear semantic links to specific foundations, suggesting partially disentangled mechanisms within shared representations. Finally, steering along either dense vectors or sparse features produces predictable shifts in foundation-relevant behavior, demonstrating a causal connection between internal representations and moral outputs. Together, our results provide mechanistic evidence that moral concepts in LLMs are distributed, layered, and partly disentangled, suggesting that pluralistic moral structure can emerge as a latent pattern from the statistical regularities of language alone.

研究の動機と目的

  • LLMsが表面的なテキスト模倣を超えて、人間の道徳判断と整合する構造化された幾何学的配置を内部に組織しているかを調査する。
  • 2つの指示調整済みLLMにおける道徳基盤理論の層別表現を検討する。
  • 密な道徳方向を解釈可能なスパース特徴に分解する(SAE:Sparse Autoencoders)。
  • マクロ(基盤ベクトル)とミクロ(SAE特徴)の両方の方向に沿った活性化を刺激することで因果的関連性を確立する。
  • 英語中心モデル(LLaMA)と中国語中心モデル(Qwen)を比較して異文化的変動性を評価する。

提案手法

  • MFV-130ベースのビネットから層別対比(最終トークン残差)を用いて基盤特有の概念ベクトルを構築する。
  • Reddit Moral Foundations Corpusの投稿をモデルの活性化に射影して、射影スコアとSigned Wasserstein Distance (SW1) による整合性を評価する。
  • 事前学習済みSAEで密な方向を分解し、それぞれの基盤と一致するTop-K特徴を特定する。
  • 大規模ウェブコーパスからトップ活性化コンテキストをサンプリングし、人間/LLM支援解釈でSAE特徴の意味を地固めする。
  • 推論時の steering を行い、マクロ(基盤ベクトル)とミクロ(SAE特徴)介入の残差ストリームにスケール調整された制御ベクトルを加える。
  • steering の有効性をMFQ-2スコアの変化で評価し、 steering下で一般能力(MMLU)をモニタリングする。

実験結果

リサーチクエスチョン

  • RQ1LLMsは道徳基盤を人間の道徳判断と一致する separable な幾何学的方向としてエンコードしているか?
  • RQ2道徳基盤はLLM内部表現において解釈可能なスパース特徴へ分解可能か?
  • RQ3これらの方向に沿った因果的 steering がモデルの道徳出力を調整し、効果は層・モデル依存か?
  • RQ4WEIRDか非WEIRD なクロスカルチャー変動が、LLMsにおける道徳基盤の分離性と steering にどのような影響を与えるか?

主な発見

  • モデルの表現と人間の道徳認識との強い整合性を示す。特にCareとSanctityで最も強く、最終層で最も高い分離性を示す。
  • SAE特徴は解釈可能な原子機構を明らかにし、例えばCareが「身体的苦痛」および「感情的苦痛」クラスタに分解されることを示す。
  • マクロ steering は基盤間で非対称な操作性を示し、Care, Sanctity, Fairness がLLaMAおよびQwenでLoyaltyとAuthorityよりも反応しやすい。
  • Top-K SAE特徴を介したマイクロ steering は、マクロ方向が社会規範と絡んでいる基盤で steerability を回復・向上させることができ、LLaMA では Authority/Loyalty の感度が最大で5.7倍向上することがある。
  • Qwen では基盤の分離性がよりクリーンでマクロ steering が十分な場合が多い一方、LLaMA にはミクロ steering が緩和できる alignment inertia が見られる。
  • 結果は、LLMにおける多次元で部分的に disentangled な道徳構造を支持し、内部表現と道徳出力との因果的結びつきを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。