[논문 리뷰] Delphi: Towards Machine Ethics and Norms
Delphi는 170만 건의 인간 레이블이 부여된 도덕적 판단을 포함한 공감 능력 기반 규범 데이터베이스를 사용하여 기계 윤리 프레임워크를 제안한다. 이는 심층 학습 모델을 도메인에 맞게 미세조정하여 도덕적 추론을 학습한다. 인간 검증 정확도가 92.1%에 달하며, GPT-3의 52.3%에 못 미치는 제로샷 성능을 크게 뛰어넘어, 윤리적 AI를 구현하기 위해 미세조정된 도덕 지식이 필수적임을 입증한다.
What would it take to teach a machine to behave ethically? While broad ethical rules may seem straightforward to state (thou shalt not kill), applying such rules to real-world situations is far more complex. For example, while helping a is generally a good thing to do, helping a friend spread fake news is not. We identify four underlying challenges towards machine ethics and norms: (1) an understanding of moral precepts and social norms; (2) the ability to perceive real-world situations visually or by reading natural language descriptions; (3) commonsense reasoning to anticipate the outcome of alternative actions in different contexts; (4) most importantly, the ability to make ethical judgments given the interplay between competing values and their grounding in different contexts (e.g., the right to freedom of expression vs. preventing the spread of fake news). Our paper begins to address these questions within the deep learning paradigm. Our prototype model, Delphi, demonstrates strong promise of language-based commonsense moral reasoning, with up to 92.1% accuracy vetted by humans. This is in stark contrast to the zero-shot performance of GPT-3 of 52.3%, which suggests that massive scale alone does not endow pre-trained neural language models with human values. Thus, we present Commonsense Norm Bank, a moral textbook customized for machines, which compiles 1.7M examples of people's ethical judgments on a broad spectrum of everyday situations. In addition to the new resources and baseline performances for future research, our study provides new insights that lead to several important open research questions: differentiating between universal human values and personal values, modeling different moral frameworks, and explainable, consistent approaches to machine ethics.
연구 동기 및 목표
- 복잡한 현실 세계 상황에서 상충되는 가치가 존재하는 경우에도 기계가 윤리적 기준을 적용할 수 있도록 하는 도전에 대응한다.
- 거대한 규모에도 불구하고 인간의 도덕적 가치가 기반되지 않은 대규모 언어 모델(GPT-3 등)의 한계를 극복한다.
- 일致되고 설명 가능한 윤리적 의사결정을 지원하기 위해 체계적이고 기계가 읽을 수 있는 도덕 지식 기반을 구축한다.
- 공감 능력 추론과 맥락 이해가 윤리적 판단 시스템에 어떻게 통합될 수 있는지 탐구한다.
- 미래의 도덕적 프레임워크, 가치 차별화, 설명 가능한 AI 윤리 연구를 위한 기반을 제공한다.
제안 방법
- 일상적인 상황에 대한 170만 건의 인간 레이블이 부여된 윤리적 판단을 포함한 공감 능력 기반 규범 데이터베이스를 구축하여 도덕적 학습 자료로 활용한다.
- 다양한 도덕적 딜레마에서 지도 미세조정을 통해 윤리적 추론을 학습하는 심층 학습 모델인 Delphi를 이 규범 데이터베이스에 기반해 훈련시킨다.
- 실제 세계의 맥락을 이해하기 위해 시각적 및 자연어 인식 능력을 통합한다.
- 다양한 사회적 및 맥락적 조건에서 행동의 결과를 예측하기 위해 공감 능력 추론을 적용한다.
- 인간 검증 기준을 활용하여 윤리적 판단 정확도를 평가함으로써 인간의 도덕적 직관과 일치하는지 확인한다.
- 자유로운 표현과 해로움 방지 사이의 상충 가치를 균형 있게 다룰 수 있도록 모델을 설계한다.
실험 결과
연구 질문
- RQ1대규모이고 인간이 레이블을 부여한 도덕적 판단 데이터셋에서 학습함으로써 기계가 일관된 윤리적 판단을 내릴 수 있는가?
- RQ2정제된 도덕 지식 기반에 대해 미세조정을 수행할 경우, 대규모 언어 모델의 제로샷 능력 이상의 윤리적 추론 능력 향상이 이루어지는가?
- RQ3맥락적 이해와 공감 능력 추론이 복잡한 현실 세계 상황에서 윤리적 의사결정을 얼마나 향상시킬 수 있는가?
- RQ4자유로운 표현과 해로움 방지와 같은 상충하는 도덕적 가치들이 기계 학습 시스템에서 어떻게 균형을 이루는가?
- RQ5기계 윤리의 맥락에서 보편적인 인간의 가치와 개인적 또는 문화적 가치를 어떻게 구분할 수 있는가?
주요 결과
- Delphi는 인간 검증 기준에서 윤리적 판단 정확도가 92.1%에 달하며, GPT-3의 52.3% 제로샷 성능을 크게 뛰어넘었다.
- 170만 건의 예제를 포함한 공감 능력 기반 규범 데이터베이스는 기계 윤리 분야에서 강력하고 다양한 학습 자료로 기능한다.
- 인간이 레이블을 부여한 도덕적 판단에 기반한 미세조정은 사전 훈련된 언어 모델에 비해 윤리적 추론 능력에 상당한 향상을 이끌어냈다.
- 모델는 자유로운 표현과 가짜 정보 방지 사이의 상충 가치를 균형 있게 다룰 수 있는 뛰어난 능력을 보였다.
- 결과적으로 거대한 모델 규모만으로는 윤리적 행동을 달성하기에는 부족하며, 체계적인 도덕 지식이 필수적임을 시사한다.
- 연구는 가치 차별화, 도덕적 프레임워크 모델링, 설명 가능한 윤리적 AI 분야에서 중요한 열린 질문들을 드러냈다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.