[논문 리뷰] When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment
MoralExceptQA라는 도덕적 예외 챌린지 세트와 인간의 도덕 판단을 더 잘 예측하도록 하는 인지에 영감을 받은 프롬프트 전략인 MoralCoT를 제안하여, 규칙 위반 상황에서 LLM의 인간 도덕 판단 예측 능력을 향상시키고 이전 모델들을 능가한다.
AI systems are becoming increasingly intertwined with human life. In order to effectively collaborate with humans and ensure safety, AI systems need to be able to understand, interpret and predict human moral judgments and decisions. Human moral judgments are often guided by rules, but not always. A central challenge for AI safety is capturing the flexibility of the human moral mind -- the ability to determine when a rule should be broken, especially in novel or unusual situations. In this paper, we present a novel challenge set consisting of rule-breaking question answering (RBQA) of cases that involve potentially permissible rule-breaking -- inspired by recent moral psychology studies. Using a state-of-the-art large language model (LLM) as a basis, we propose a novel moral chain of thought (MORALCOT) prompting strategy that combines the strengths of LLMs with theories of moral reasoning developed in cognitive science to predict human moral judgments. MORALCOT outperforms seven existing LLMs by 6.2% F1, suggesting that modeling human reasoning might be necessary to capture the flexibility of the human moral mind. We also conduct a detailed error analysis to suggest directions for future work to improve AI safety using RBQA. Our data is open-sourced at https://huggingface.co/datasets/feradauto/MoralExceptQA and code at https://github.com/feradauto/MoralCoT
연구 동기 및 목표
- 유연한 인간 도덕 판단과 규칙 위반을 모델링하기 위한 AI 안전성 필요성을 자극한다.
- 룰의 도덕적으로 허용 가능한 예외를 벤치마크하기 위해 MoralExceptQA를 도입한다.
- LLM에서 다단계의 도덕적 추론을 유도하기 위한 인지에 영감을 받은 프롬프트 방법(MoralCoT)을 개발한다.
- MoralExceptQA 과제에서 기존 LLM보다 MoralCoT가 개선됨을 입증하고 오차 패턴을 분석한다.
제안 방법
- 확립된 규범을 어기는 것의 허용 가능성을 테스트하는 도전적인 작은 사례 집합으로 MoralExceptQA를 구성한다.
- 사례들을 세 가지 규범 범주(줄 선 절단 금지, 재산 간섭 금지, 그리고 새로운 규칙)로 근거를 둔다.
- MoralCoT 제안: 규칙-기능, 허용 가능한 위반 평가, 비용/편익 고려를 요청하는 N단계 프롬프트.
- InstructGPT-스타일 모델을 통해 체인-오브-사고와 같은 응답 및 최종 이진 판정을 생성하도록 프롬프트를 구현한다.
- F1, 정확도, 그리고 주의 관련 지표(Conservativity, MAE, CE)를 사용해 다수의 기준선(BERT, RoBERTa, ALBERT, Delphi, GPT-3 변형)과 평가한다.
- 하위질문 성능 및 비용/편익 추론을 분석하여 실패 모드를 진단한다.
실험 결과
연구 질문
- RQ1새로운 시나리오에서 규칙을 합법적으로 어길지에 대한 인간의 판단을 LLM이 예측할 수 있는가?
- RQ2인지에 영감을 받은 프롬프트 전략(MoralCoT)이 도덕적 유연성 모델링에서 기존 LLM 프롬프트보다 우수한가?
- RQ3도덕적 예외 추론에서 현재 LLM의 주요 실패 모드는 무엇이며 어떻게 해결할 수 있는가?
- RQ4LLM은 서로 다른 규범 카테고리(줄선 자르기, 재산 손상, 새로운 규칙) 전반에 걸쳐 인간 판단과 얼마나 잘 일치하는가?
주요 결과
- MoralCoT은 MoralExceptQA에서 모든 기준선 LLM을 능가하며 64.47% F1로 InstructGPT보다 10.53%, Delphi++보다 6.2% F1 높다.
- 모델 전반에 걸쳐 보존성(Conservativity)은 광범위하게 변하며, 일부 모델은 규칙에 거의 항상 고수하고 others 과도하게 관대; MoralCoT는 66.96%의 보다 균형된 보존성을 달성한다.
- 해당 과제는 많은 모델이 여전히 무작위에 가까운 성능(~50% F1)에 머물렀음을 보여주며, AI 안전 관련 도덕 추론에 상당한 차이가 있음을 시사한다.
- 하위질문 분석은 비용/편익 및 규칙의 기능이 모델에 도전적인 측면임을 보여주며, 설명은 예측과 일치하는 경향이 있지만 맥락상 사실적으로 미묘한 경우가 있다.
- MoralExceptQA 데이터와 MoralCoT 코드/데이터는 공개적으로 이용 가능하다(데이터세트는 HuggingFace, 코드는 GitHub).
- 오류 분석은 복잡한 사회적 맥락에서 규칙의 기본 기능과 목적을 모델링하는 데 어려움을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.