[論文レビュー] Evaluating the Moral Beliefs Encoded in LLMs
この論文は、LLMにエンコードされた道徳的信念を引き出し定量化する統計的枠組みを提示し、MoralChoice調査を構築、1,367の道徳的シナリオを横断して28モデルを分析し、行動選択、不確実性、質問形式の感度を研究する。
This paper presents a case study on the design, administration, post-processing, and evaluation of surveys on large language models (LLMs). It comprises two components: (1) A statistical method for eliciting beliefs encoded in LLMs. We introduce statistical measures and evaluation metrics that quantify the probability of an LLM "making a choice", the associated uncertainty, and the consistency of that choice. (2) We apply this method to study what moral beliefs are encoded in different LLMs, especially in ambiguous cases where the right choice is not obvious. We design a large-scale survey comprising 680 high-ambiguity moral scenarios (e.g., "Should I tell a white lie?") and 687 low-ambiguity moral scenarios (e.g., "Should I stop for a pedestrian on the road?"). Each scenario includes a description, two possible actions, and auxiliary labels indicating violated rules (e.g., "do not kill"). We administer the survey to 28 open- and closed-source LLMs. We find that (a) in unambiguous scenarios, most models "choose" actions that align with commonsense. In ambiguous cases, most models express uncertainty. (b) Some models are uncertain about choosing the commonsense action because their responses are sensitive to the question-wording. (c) Some models reflect clear preferences in ambiguous scenarios. Specifically, closed-source models tend to agree with each other.
研究の動機と目的
- 統計的手法を開発して、行動可能性および関連指標を通じてLLMに組み込まれた道徳信念を定量化する。
- 高-および低-あいまいさの道徳シナリオを用いてMoralChoice調査を設計・実装する。
- MoralChoiceデータセットを作成し、28のオープンソースおよびクローズドソースのLLMを分析する。
- あいまいさと質問文の形式がモデルの選択と不確実性に与える影響を調べる。
- モデル群間の合意パターンと先行モデル間の顕著な強い整合性を特定する。
提案手法
- シナリオ内で1つの行動をLLMが好む確率として行動可能性を定義し、トークン確率列を行動へ集約する。
- 質問形式の感度を考慮するために周辺の行動可能性を導入し、関連するエントロピー指標(行動エントロピー、周辺行動エントロピー)を定義する。
- Generalized Jensen-Shannon divergenceを用いてQF-C(質問形式の一貫性)を開発し、QF-E(質問形式特異的行動エントロピーの平均)でロバスト性と不確実性を診断する。
- トークン列をモンテカルロサンプリングと、列から行動へのルールベースの写像を用いてこれらの量を推定し、Z(x)のプロンプト形に対しては形式を均一にする。
- MoralChoiceを構築、1,767シナリオと28のLLM(オープンおよびクローズドソース)からの回答を含む調査データセット。
- 質問形式(A/B、Repeat、Compare)を体系的に変化させ、行動順序を変えることでプロンプトバイアスを緩和し、無効/拒否率を報告する。
実験結果
リサーチクエスチョン
- RQ1仮想シナリオにおける行動選択としてLLMにエンコードされた道徳信念は何か。
- RQ2あいまいさ、質問文、プロンプト形式がLLMの表現する選好と不確実性にどう影響するか。
- RQ3オープンソースとクローズドソースのモデルは道徳判断で収束するか発散するか、そしてこれらのパターンの原因は何か。
- RQ4提案された指標(行動可能性、エントロピー、QF-C、QF-E)で不確実性と一貫性の源をモデル間で可視化できるか。
主な発見
- 低あいまいさのシナリオでは、ほとんどのLLMが常識に沿った行動を出力する。
- 高あいまいさのシナリオでは、ほとんどのLLMがどの行動が好ましいかについて不確実性を表す。
- いくつかのモデルはあいまいなシナリオで明確な好みを示し、オープンソース内およびAPIモデル群内で強い合意を示す。
- gpt-4、claude-v1.3、claude-instant-v1.1、text-bison-001(PaLM 2)間で著しく強い合意が見られる。
- 特定のオープンソースモデルは不確実だが一貫性を保ち、いくつかのAPIモデルは人間の整合方向性に合わせて高い確信を示す。
- 質問形式とテンプレートによる不整合が、小型モデルに影響を及ぼし、質問形式への感度を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。