[論文レビュー] Aligning AI With Shared Human Values
この論文は ETHICS データセットを導入し、複数の規範理論に跨る基本的な人間の倫理知識を言語モデルがどれだけ理解しているかを評価し、いくつかの大規模NLPモデルを評価し、オープンワールドの状況での道徳判断を予測する能力を分析します。結果は低いながらも有望で、改善の余地が明確にあり、バイアスや意見の相違についての洞察を提供します。
We show how to assess a language model's knowledge of basic concepts of morality. We introduce the ETHICS dataset, a new benchmark that spans concepts in justice, well-being, duties, virtues, and commonsense morality. Models predict widespread moral judgments about diverse text scenarios. This requires connecting physical and social world knowledge to value judgements, a capability that may enable us to steer chatbot outputs or eventually regularize open-ended reinforcement learning agents. With the ETHICS dataset, we find that current language models have a promising but incomplete ability to predict basic human ethical judgements. Our work shows that progress can be made on machine ethics today, and it provides a steppingstone toward AI that is aligned with human values.
研究の動機と目的
- 規範倫理理論全体にわたる基本的な道徳概念の機械的理解を測定するベンチマークを導入する。
- 世界知識と価値連結を要するオープンワールドの文脈化された道徳判断を捉える。
- 最先端のNLPモデルを評価し、より安全で整合的なAI出力を導くためのギャップと可能性を特定する。
提案手法
- 正義、義務論、美徳倫理、功利主義、そして常識道徳を含むシナリオを扱うETHICSデータセットを作成する。
- 高品質で曖昧さのないラベルを保証するためにMTurkと反事実拡張を用いる。
- 微調整済みまたはFew-shot設定で評価する複数の事前学習モデル(BERT-base/large、RoBERTa-large、ALBERT-xxlarge)とGPT-3。
- ほとんどのタスクにはタスク適切な指標を用いてパフォーマンスを測定:0/1損失、功利主義にはランキング精度。
- モデルのユーティリティ関数を分析し、予測のバイアスとスコープ感度を評価する。
- 論争的な常識道徳サブセットを用いた意見の相違検出を検討する。
実験結果
リサーチクエスチョン
- RQ1事前学習済み言語モデルはオープンワールドの状況で基本的な人間の倫理判断を予測できるか。
- RQ2さまざまな規範倫理理論(正義、義務論、美徳、功利主義、常識道徳)はモデルの予測にどのように対応するか。
- RQ3倫理判断におけるモデルの限界とバイアスは何か、意見の相違を検出できるか。
主な発見
| モデル | 正義 (Test / Hard Test) | 義務論 (Test / Hard Test) | 美徳 (Test / Hard Test) | 功利主義 (Test / Hard Test) | 常識 (Test / Hard Test) | 平均 (Test / Hard Test) |
|---|---|---|---|---|---|---|
| Random Baseline | 6.3 / 6.3 | 6.3 / 6.3 | 8.2 / 8.2 | 50.0 / 50.0 | 50.0 / 50.0 | 24.2 / 24.2 |
| Word Averaging | 10.3 / 6.6 | 18.2 / 9.7 | 8.5 / 8.1 | 67.9 / 42.6 | 62.9 / 44.0 | 33.5 / 22.2 |
| GPT-3 (few-shot) | 15.2 / 11.9 | 15.9 / 9.5 | 18.2 / 9.5 | 73.7 / 64.8 | 73.3 / 66.0 | 39.3 / 32.3 |
| BERT-base | 26.0 / 7.6 | 38.8 / 10.3 | 33.1 / 8.6 | 73.4 / 44.9 | 86.5 / 48.7 | 51.6 / 24.0 |
| BERT-large | 32.7 / 11.3 | 44.2 / 13.6 | 40.6 / 13.5 | 74.6 / 49.1 | 88.5 / 51.1 | 56.1 / 27.7 |
| RoBERTa-large | 56.7 / 38.0 | 60.3 / 30.8 | 53.0 / 25.5 | 79.5 / 62.9 | 90.4 / 63.4 | 68.0 / 44.1 |
| ALBERT-xxlarge | 59.9 / 38.2 | 64.1 / 37.2 | 64.1 / 37.8 | 81.9 / 67.4 | 85.1 / 59.0 | 71.0 / 47.9 |
- モデルはETHICSタスクで低いが有望な精度を示し、より大きい/さらに事前訓練されたモデルほど平均的に性能が良い。
- RoBERTa-largeとALBERT-xxlargeは小型モデルより高い平均スコアを達成するが、Hard Testでの結果は大幅に低下する。
- GPT-3 の few-shot は敵対的にフィルタリングされたデータでは微調整済みモデルと競合するが、通常データでは小型の微調整済みトランスフォーマーには遅れを取る。
- 学習されたユーティリティ関数とフレーミング効果には道徳判断やトロリーモ_problemのような状況に影響を与えるバイアスが存在する。
- 論争的な常識道徳の例の専用データセットは、モデルが論争的ケースと非論争的ケースを区別するのに苦労していることを示している。
- モデルの性能はモデルサイズとデータの増加とともに向上する証拠があるが、Hard/ adversarialテストセットでは現実的な天井を下回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。