[論文レビュー] Scaling Laws for Moral Machine Judgment in Large Language Models
研究は人間の嗜好スケールとの道徳判断の整合性がモデルサイズとともにべき指数関係で拡張される(D ∝ S^{-0.10})、アーキテクチャを超えて頑健;拡張推論は特に小型モデルで整合性を改善し、スケール時の分散を減少させる。
Autonomous systems increasingly require moral judgment capabilities, yet whether these capabilities scale predictably with model size remains unexplored. We systematically evaluate 75 large language model configurations (0.27B--1000B parameters) using the Moral Machine framework, measuring alignment with human preferences in life-death dilemmas. We observe a consistent power-law relationship with distance from human preferences ($D$) decreasing as $D \propto S^{-0.10\pm0.01}$ ($R^2=0.50$, $p<0.001$) where $S$ is model size. Mixed-effects models confirm this relationship persists after controlling for model family and reasoning capabilities. Extended reasoning models show significantly better alignment, with this effect being more pronounced in smaller models (size$ imes$reasoning interaction: $p = 0.024$). The relationship holds across diverse architectures, while variance decreases at larger scales, indicating systematic emergence of more reliable moral judgment with computational scale. These findings extend scaling law research to value-based judgments and provide empirical foundations for artificial intelligence governance.
研究の動機と目的
- LLMの道徳判断能力が他の認知能力と同様にモデルサイズでスケールするかを調査する。
- 75のモデル構成を横断して道徳機械フレームワークを用いて人間の嗜好への整合性を定量化する。
- モデルファミリ、アーキテクチャ、推論機構に対するスケーリング法則の頑健性を評価する。
- 拡張推論と時間的要因が道徳整合性に独立して影響を与えるかを特定する。
提案手法
- 0.27B–1000Bパラメータにわたる75のLLM構成を、プロンプトと道徳機械フレームワークを用いて評価する。
- AMCEベクトルを介した人間の嗜好との整合性を測定し、モデルと人間のAMCEのユークリッド距離Dを計算する。
- D ∝ S^{-α}を適合させてべき法則性を検証し、線形・対数・指数的代替と比較する。
- モデルファミリをランダム効果として取り入れた線形混合効果モデルを用い、リリース日と推論能力を予測因子として含める。

実験結果
リサーチクエスチョン
- RQ1多様なLLMアーキテクチャ全体で、道徳的整合性はモデルサイズとともにスケールするか。
- RQ2混乱要因(モデルファミリ、リリース日、推論能力)を考慮しても観察されたスケーリングは頑健か。
- RQ3拡張推論アプローチはスケール以上の整合性を提供するか、そしてこれがモデルサイズとどう相互作用するか。
- RQ4モデルサイズとともに整合性の分散はどう変化するか。
主な発見
- より大きなモデルは人間の道徳嗜好への整合性が高く、べき法則に従う:D ∝ S^{-0.10±0.01}(R²=0.50, p<0.001)。
- 混合効果モデルを用いてモデルファミリを統制してもべき法則関係は維持される。
- 拡張推論モデルは人間の嗜好により近く整合し(β=-0.16, p=0.001)、サイズ×推論の相互作用(β=0.057, p=0.024)が小型モデルでより大きな利益を示す。
- 整合性の分散はモデルサイズが大きくなると減少し、スケール時の道徳判断がより信頼性の高いものとなる。
- 時間的改善(リリース日)はサイズと推論能力を超える整合性を大幅には改善しない。
- 最終モデルは主要ファミリ(DeepSeek, Llama, Gemma, Qwen, Other)間で一貫したスケーリングパターンを支持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。