[논문 리뷰] Scaling Laws for Moral Machine Judgment in Large Language Models
연구는 도덕적 판단이 인간 선호도와의 정렬이 모델 크기에 비례하는 거듭제곱 법칙으로 나타나며 (D ∝ S^{-0.10}), 아키텍처에 관계없이 강건함; 확장된 추론은 정렬을 개선하고, 특히 작은 모델의 경우 분산이 감소한다.
Autonomous systems increasingly require moral judgment capabilities, yet whether these capabilities scale predictably with model size remains unexplored. We systematically evaluate 75 large language model configurations (0.27B--1000B parameters) using the Moral Machine framework, measuring alignment with human preferences in life-death dilemmas. We observe a consistent power-law relationship with distance from human preferences ($D$) decreasing as $D \propto S^{-0.10\pm0.01}$ ($R^2=0.50$, $p<0.001$) where $S$ is model size. Mixed-effects models confirm this relationship persists after controlling for model family and reasoning capabilities. Extended reasoning models show significantly better alignment, with this effect being more pronounced in smaller models (size$ imes$reasoning interaction: $p = 0.024$). The relationship holds across diverse architectures, while variance decreases at larger scales, indicating systematic emergence of more reliable moral judgment with computational scale. These findings extend scaling law research to value-based judgments and provide empirical foundations for artificial intelligence governance.
연구 동기 및 목표
- 다른 인지 능력처럼 LLM의 도덕 판단 능력이 모델 크기와 함께 스케일링되는지 조사한다.
- Moral Machine 프레임워크를 사용하여 75개 모델 구성에서 인간의 도덕 선호도와의 정렬을 정량화한다.
- 모델 계열, 아키텍처 및 추론 메커니즘에 대한 스케일링 법칙의 견고성을 평가한다.
- 확장된 추론 및 시간적 요인이 도덕 정렬에 독립적으로 영향을 미치는지 확인한다.
제안 방법
- prompts와 Moral Machine 프레임워크를 사용하여 0.27B–1000B 매개변수를 포괄한 75개 LLM 구성 평가
- 모델과 인간 AMCE 간의 유클리드 거리 D를 계산하고 AMCE 벡터와의 정렬을 인간 선호도와 비교한다.
- D ∝ S^{-α}를 맞추어 거듭제곱 법칙 스케일링을 테스트하고 선형, 로그 및 지수 대안과 비교한다.
- 랜덤 효과로 모델 계열을 포함한 선형 혼합 효과 모델을 사용하고 릴리스 날짜와 추론 능력을 예측 변수로 포함한다.

실험 결과
연구 질문
- RQ1다양한 LLM 아키텍처에서 모델 크기와 함께 인간 선호도와의 도덕 정렬이 스케일링되는가?
- RQ2모델 계열, 릴리스 날짜, 추론 능력과 같은 혼동 요인에 대해 관찰된 스케일링이 견고한가?
- RQ3확장된 추론 접근 방식이 규모를 넘어서 추가적인 정렬을 제공하는가, 이것이 모델 크기와 어떻게 상호 작용하는가?
- RQ4모델 크기에 따른 정렬의 분산이 어떻게 변화하는가?
주요 결과
- 더 큰 모델은 인간의 도덕 선호도와의 정렬이 더 잘 이루어지며, 거듭제곱 법칙 D ∝ S^{-0.10±0.01}를 따른다(R²=0.50, p<0.001).
- 혼합 효과 모델을 통해 모델 계열을 제어한 후에도 거듭제곱 법칙 관계가 유지된다.
- 확장된 추론 모델은 인간 선호도에 더 가깝게 정렬되며(β=-0.16, p=0.001), 크기×추론 상호 작용이 유의하며(β=0.057, p=0.024) 작은 모델에서 더 큰 상승을 보인다.
- 정렬의 분산은 모델 크기가 커질수록 감소하여 규모 확장에서 더 안정적인 도덕적 판단을 시사한다.
- 시간적 개선(릴리스 날짜)은 크기와 추론 능력을 넘어서는 정렬 향상을 크게 제공하지 않는다.
- 최종 모델은 주요 계열(DeepSeek, Llama, Gemma, Qwen, 기타) 전반에 걸쳐 일관된 스케일링 패턴을 지지한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.