[論文レビュー] Delphi: Towards Machine Ethics and Norms
Delphiは、170万件の人的アノテーションによる道徳的判断を含む常識的規範バンクを用いて、機械的道徳フレームワークを提案する。このフレームワークは、深層学習モデルを訓練することで道徳的推論を実現し、人間による検証済みの正確性が92.1%に達する。これは、GPT-3のゼロショット性能52.3%を著しく上回り、道徳的AIを実現するには、微調整された道徳的知識が不可欠であることを示している。
What would it take to teach a machine to behave ethically? While broad ethical rules may seem straightforward to state (thou shalt not kill), applying such rules to real-world situations is far more complex. For example, while helping a is generally a good thing to do, helping a friend spread fake news is not. We identify four underlying challenges towards machine ethics and norms: (1) an understanding of moral precepts and social norms; (2) the ability to perceive real-world situations visually or by reading natural language descriptions; (3) commonsense reasoning to anticipate the outcome of alternative actions in different contexts; (4) most importantly, the ability to make ethical judgments given the interplay between competing values and their grounding in different contexts (e.g., the right to freedom of expression vs. preventing the spread of fake news). Our paper begins to address these questions within the deep learning paradigm. Our prototype model, Delphi, demonstrates strong promise of language-based commonsense moral reasoning, with up to 92.1% accuracy vetted by humans. This is in stark contrast to the zero-shot performance of GPT-3 of 52.3%, which suggests that massive scale alone does not endow pre-trained neural language models with human values. Thus, we present Commonsense Norm Bank, a moral textbook customized for machines, which compiles 1.7M examples of people's ethical judgments on a broad spectrum of everyday situations. In addition to the new resources and baseline performances for future research, our study provides new insights that lead to several important open research questions: differentiating between universal human values and personal values, modeling different moral frameworks, and explainable, consistent approaches to machine ethics.
研究の動機と目的
- 複雑で現実的価値の対立を伴う状況において、機械が道徳的規範を適切に適用できるよう対応する課題に取り組む。
- GPT-3のような大規模言語モデルが、巨視的規模を誇るにもかかわらず、人間の道徳的価値が根拠として欠落しているという限界を克服する。
- 一貫性があり説明可能な道徳的意思決定を支援する、構造的かつ機械可読の道徳的知識ベースの構築。
- 常識的推論と文脈理解が、道徳的判断システムにどのように統合されるかを調査する。
- 将来的な道徳的フレームワーク、価値の差別化、説明可能なAI倫理に関する研究の基盤を提供する。
提案手法
- 日常的な状況に関する170万件の人的アノテーションによる道徳的判断を含む常識的規範バンクを構築し、道徳的訓練コーパスとして活用する。
- 多様な道徳的ジレンマに対する教師あり微調整を通じて、Delphiと呼ばれる深層学習モデルをこの規範バンクで訓練し、道徳的推論を学習する。
- 実世界の文脈を理解するための視覚的および自然言語認識機能を統合する。
- さまざまな社会的・文脈的条件下で行動の結果を予測するために、常識的推論を活用する。
- 人間による検証済みベンチマークを用いて、道徳的判断の正確性を評価し、人間の道徳的直感と整合させる。
- 自由な表現と害の防止といった対立する価値を、洗練された意思決定においてバランスさせるようにモデルを設計する。
実験結果
リサーチクエスチョン
- RQ1大規模かつ人的アノテーション済みの道徳的意思決定データセットから学習することで、機械が一貫した道徳的判断を下せるようになるか?
- RQ2整理された道徳的知識ベースでの微調整は、大規模言語モデルのゼロショット能力を上回る道徳的推論をどのように向上させるか?
- RQ3文脈的および常識的推論は、複雑で現実的な状況における道徳的意思決定をどの程度向上させるか?
- RQ4自由な表現と害の防止といった対立する道徳的価値は、機械学習システム内でどのようにバランスされるか?
- RQ5機械的道徳の文脈において、普遍的な人間の価値と個人的・文化的価値の違いは何か?
主な発見
- Delphiは、人間による検証済みの道徳的判断において92.1%の正確性を達成し、GPT-3のゼロショット性能52.3%を著しく上回った。
- 170万件の例を含む常識的規範バンクは、機械的道徳のための強固で多様な訓練リソースを提供する。
- 人的アノテーションによる道徳的判断での微調整は、事前学習済み言語モデルに比べ、道徳的推論の大幅な向上をもたらす。
- モデルは、自由な表現と誤情報防止のバランスといった、対立する価値についての推論において、強力な能力を示した。
- 結果から、巨大なモデル規模だけでは道徳的行動を実現できないことが示唆され、構造的な道徳的知識が不可欠であることがわかった。
- 本研究は、価値の差別化、道徳的フレームワークのモデリング、説明可能性に関する重要な未解決の課題を明らかにした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。