[논문 리뷰] Aligning AI With Shared Human Values
이 논문은 기본 인간 윤리에 대한 지식을 다수의 규범 이론에 걸쳐 평가하기 위해 ETHICS 데이터셋을 도입하고, 여러 대형 NLP 모델을 평가하며, 열린 세계 시나리오에서 도덕 판단을 예측하는 능력을 분석한다. 결과는 낮지만 유망한 성능과 개선의 여지가 명확하며 편향과 이견에 대한 통찰을 제공한다.
We show how to assess a language model's knowledge of basic concepts of morality. We introduce the ETHICS dataset, a new benchmark that spans concepts in justice, well-being, duties, virtues, and commonsense morality. Models predict widespread moral judgments about diverse text scenarios. This requires connecting physical and social world knowledge to value judgements, a capability that may enable us to steer chatbot outputs or eventually regularize open-ended reinforcement learning agents. With the ETHICS dataset, we find that current language models have a promising but incomplete ability to predict basic human ethical judgements. Our work shows that progress can be made on machine ethics today, and it provides a steppingstone toward AI that is aligned with human values.
연구 동기 및 목표
- 전통적 윤리 이론 전반에 걸친 기본 도덕 개념에 대한 기계 이해를 측정하는 벤치마크를 도입한다.
- 세계 지식과 가치 연결을 요구하는 열린 세계 맥락화된 도덕 판단을 포착한다.
- 최첨단 NLP 모델을 평가하고 격차와 더 안전하고 더 잘 맞춘 AI 출력을 안내할 수 있는 가능성을 식별한다.
제안 방법
- 정의, 의무론, 덕 윤리, 공리주의, 상식 도덕성에 걸친 시나리오로 ETHICS 데이터셋을 구성한다.
- 고품질의 명확한 레이블을 확보하기 위해 MTurk 및 역사실적 증가를 활용한다.
- 사전 학습된 여러 모델(BERT-기본/대형, RoBERTa-대형, ALBERT-xxlarge)과 GPT-3를 미세조정 또는 소수 샘플 설정으로 평가한다.
- 태스크에 적합한 지표로 성능을 측정한다: 대부분의 태스크에 대해 0/1 손실, 공리주의에 대해서는 순위 정확도.
- 모델의 유틸리티 함수와 예측에서의 편향 및 범위 민감도를 분석한다.
- 논쟁의 여지가 있는 상식 도덕성 하위집합을 통해 이견 탐지를 검토한다.
실험 결과
연구 질문
- RQ1사전 학습된 언어 모델이 열린 세계 시나리오에서 기본적인 인간 윤리 판단을 예측할 수 있는가?
- RQ2다른 규범 윤리 이론(정의, 의무론, 덕 윤리, 공리주의, 상식 도덕성)이 모델 예측에 어떻게 매핑되는가?
- RQ3모델의 윤리 판단에서의 한계와 편향은 무엇이며 이견 탐지가 가능한가?
주요 결과
| 모델 | 정의(테스트 / 하드 테스트) | 의무론(테스트 / 하드 테스트) | 덕 윤리(테스트 / 하드 테스트) | 공리주의(테스트 / 하드 테스트) | 상식 도덕성(테스트 / 하드 테스트) | 평균(테스트 / 하드 테스트) |
|---|---|---|---|---|---|---|
| Random Baseline | 6.3 / 6.3 | 6.3 / 6.3 | 8.2 / 8.2 | 50.0 / 50.0 | 50.0 / 50.0 | 24.2 / 24.2 |
| Word Averaging | 10.3 / 6.6 | 18.2 / 9.7 | 8.5 / 8.1 | 67.9 / 42.6 | 62.9 / 44.0 | 33.5 / 22.2 |
| GPT-3 (few-shot) | 15.2 / 11.9 | 15.9 / 9.5 | 18.2 / 9.5 | 73.7 / 64.8 | 73.3 / 66.0 | 39.3 / 32.3 |
| BERT-base | 26.0 / 7.6 | 38.8 / 10.3 | 33.1 / 8.6 | 73.4 / 44.9 | 86.5 / 48.7 | 51.6 / 24.0 |
| BERT-large | 32.7 / 11.3 | 44.2 / 13.6 | 40.6 / 13.5 | 74.6 / 49.1 | 88.5 / 51.1 | 56.1 / 27.7 |
| RoBERTa-large | 56.7 / 38.0 | 60.3 / 30.8 | 53.0 / 25.5 | 79.5 / 62.9 | 90.4 / 63.4 | 68.0 / 44.1 |
| ALBERT-xxlarge | 59.9 / 38.2 | 64.1 / 37.2 | 64.1 / 37.8 | 81.9 / 67.4 | 85.1 / 59.0 | 71.0 / 47.9 |
- 모델은 ETHICS 과제에서 낮은 수준이지만 유망한 정확도를 보이며, 더 크고 더 많이 학습된 모델일수록 평균적으로 더 나은 성능을 보인다.
- RoBERTa-대형과 ALBERT-xxlarge가 소형 모델보다 더 높은 평균 점수를 달성하지만 Hard Test에서의 결과가 크게 감소한다.
- GPT-3 소수 샘플은 adversarial하게 필터링된 데이터에서 일부 미세 조정 모델과 경쟁력이 있지만 일반 데이터에서는 작은 미세 조정 트랜스포머보다 뒤처진다.
- 학습된 유틸리티 함수와 구성 프레이밍에 편향이 존재하여 도덕 판단과 트롤리 문제와 유사한 상황에 영향을 줄 수 있다.
- 논쟁적인 상식 도덕성 예시의 전용 데이터셋은 모델이 논쟁적 사례를 비논쟁적 사례와 구분하는 데 어려움을 겪는다는 것을 시사한다.
- 모델의 성능은 모델 크기와 데이터와 함께 향상되지만 Hard/적대적 테스트 세트에서 실제 한계선 아래에 머문다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.