[논문 리뷰] MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks
논문은 인지과학 이야기로 벤치마크를 구성하여 LLM이 인간의 인과적·도덕적 판단과 얼마나 잘 정렬되는지 측정하고, 더 큰 모델과 RLHF가 정렬을 개선하지만 인간과 비교해 암묵적 경향에 체계적 차이가 있음을 드러낸다.
Human commonsense understanding of the physical and social world is organized around intuitive theories. These theories support making causal and moral judgments. When something bad happens, we naturally ask: who did what, and why? A rich literature in cognitive science has studied people's causal and moral intuitions. This work has revealed a number of factors that systematically influence people's judgments, such as the violation of norms and whether the harm is avoidable or inevitable. We collected a dataset of stories from 24 cognitive science papers and developed a system to annotate each story with the factors they investigated. Using this dataset, we test whether large language models (LLMs) make causal and moral judgments about text-based scenarios that align with those of human participants. On the aggregate level, alignment has improved with more recent LLMs. However, using statistical analyses, we find that LLMs weigh the different factors quite differently from human participants. These results show how curated, challenge datasets combined with insights from cognitive science can help us go beyond comparisons based merely on aggregate metrics: we uncover LLMs implicit tendencies and show to what extent these align with human intuitions.
연구 동기 및 목표
- 24개의 인지 과학 논문에서 인간의 인과 및 도덕 판단에 영향을 주는 요인들을 요약하고, 이러한 요인으로 주석된 제어된 스토리 데이터셋을 생성한다.
- 인간 판단과의 정렬에 대해 다양한 크기의 LLM을 평가한다.
- Average Marginal Component Effect (AMCE)를 사용하여 모델의 암시적 경향을 분석하고 인간과의 차이를 식별한다.
- prompting 방법, 모델 크기, 훈련 기법(RLHF 등)이 정렬 및 암시적 경향에 어떤 영향을 미치는지 조사한다.
제안 방법
- 인지과학 문헌에서 인과적 및 도덕적 판단 이야기를 선별하고 엔지니어링된 요인(인과 구조, 에이전트 의식, 규범 유형, 사건의 정상성, 행위/생략, 시간; 인과적 역할, 수단/부작용, 개인적 힘, 회피 가능성, 선의 등)을 주석으로 추가한다.
- 다양한 요인 주석과 전문가 라벨이 포함된 이야기 5150개의 인간 반응 데이터셋을 구성한다.
- 제로샷 인과 및 도덕 판단에 대해 여러 LLM(다양한 크기 및 학습 방법)을 평가하고 정확도, AUC, MAE, 교차 엔트로피를 사용해 인간과의 일치도를 측정한다.
- AMCE(비모수 차이의 평균)로 인간과 모델의 각 요인 속성에 대한 암시적 경향을 정량화한다.
- 프롬프트 개입(페르소나, 자동 프롷트 엔지니어링) 및 프롬프트 전략을 탐색해 모델 경향의 변화를 평가한다.
- 더 큰 모델과 RLHF가 집계 정렬을 향상시키지만 경향은 모델과 요인에 따라 다르다고 보고한다.

실험 결과
연구 질문
- RQ1LLM의 인과 및 도덕 판단이 안전하게 구성된 시나리오 전반에서 인간 직관과 얼마나 일치하는가?
- RQ2모델 크기와 학습 방법(RLHF, 지시 튜닝 등)이 인간 판단과의 정렬에 어떤 영향을 미치는가?
- RQ3AMCE로 드러난 인간의 인과 및 도덕 판단을 형성하는 요인들에 대해 LLM이 보이는 암시적 경향은 무엇인가?
- RQ4프롬프트 전략과 페르소나 기반 프롬프트가 LLM의 판단을 인간 정렬된 응답으로 이동시킬 수 있는가?
주요 결과
- 더 큰 모델과 RLHF가 집계 지표에서 인간과의 정렬을 향상시키지만, 모든 과제나 요인에서 균일하지 않다.
- AMCE 분석은 LLM과 인간이 규범성, 비정상성, 불가피성 등의 요인에 대해 암시적 경향이 다름을 보여주며, 집계 정확도 너머의 체계적 차이를 시사한다.
- 비슷하게 훈련된 모델 간에도 모델 이질성이 존재하며, 더 큰 크기가 항상 정렬 향상을 보장하지는 않는다(비단조적 경향).
- 프롬프트 방식이 특정 요인(예: 비정상성, 자기/타인 선행)을 위한 모델 경향을 더 크게 바꿀 수 있다(예: 불가피성보다).
- 소형 모델에서 망상(Hallucination) 비율이 더 높고, 대형 모델은 인간 판단과 항상 정렬되지 않는 다른 경향 패턴을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.