[論文レビュー] Questioning the Survey Responses of Large Language Models
この論文は、LLMsが米国人間社会調査(ACS)質問にどのように回答するかを調べ、強い順序バイアスを明らかにし、調整後の回答がほぼ一様にランダムであることを示し、モデル生成の調査データがUS censusデータに似ていないことを実証します。バイアスを診断する方法と、合成データと国勢調査データを比較する識別子テストを導入します。
Surveys have recently gained popularity as a tool to study large language models. By comparing survey responses of models to those of human reference populations, researchers aim to infer the demographics, political opinions, or values best represented by current language models. In this work, we critically examine this methodology on the basis of the well-established American Community Survey by the U.S. Census Bureau. Evaluating 43 different language models using de-facto standard prompting methodologies, we establish two dominant patterns. First, models' responses are governed by ordering and labeling biases, for example, towards survey responses labeled with the letter "A". Second, when adjusting for these systematic biases through randomized answer ordering, models across the board trend towards uniformly random survey responses, irrespective of model size or pre-training data. As a result, in contrast to conjectures from prior work, survey-derived alignment measures often permit a simple explanation: models consistently appear to better represent subgroups whose aggregate statistics are closest to uniform for any survey under consideration.
研究の動機と目的
- LLMsの調査回答がACSの質問を用いて米国の人口分布を反映しているかを評価する。
- LLMsの調査分布を歪める要因(順序とラベリングのバイアス)を特定する。
- 指示調整とRLHFがLLMの調査行動にどのように影響するかを評価する。
- 逐次生成されたLLMの調査データが実際の国勢調査データに近いかを検証する。
- LLMの調査回答を研究するための方法論的ツールを提供する(順序バイアスの検出、均等ベースのベンチマーク、識別子テスト)。
提案手法
- 25のACS多肢選択問題でLLMsをプロンプトし、回答の確率分布を記録する。
- 正規化エントロピーを計算してモデルサイズ間で回答のばらつきを比較する。
- 回答順序をランダム化してAバイアスを特定・定量化し、均一性からの偏差を測定する。
- 多数の順列にわたって平均を取り、ランダム順序下の調整後の回答分布を得る。
- モデルを逐次プロンプトしてACS質問票全体を埋めさせ、巨大な合成データセットを構築する。
- モデル生成データと国勢調査データを識別するXGBoost分類器を訓練し、分布の類似性を評価する。
実験結果
リサーチクエスチョン
- RQ1個々のACS質問に対するLLMsの回答分布は米国の国勢調査分布に似ているか?
- RQ2ランダム化された回答順序はLLMsのラベリング/順序バイアスを明らかにし、低減できるか?
- RQ3調整後(順序バイアス補正済み)LLMの回答はほぼ一様かつ国勢調査データとどの程度比較されるか?
- RQ4指示調整済みモデルやRLHF調整済みモデルはベースモデルと比べてACS調査回答が異なるか?
- RQ5逐次的にプロンプトしたデータセットは実際の国勢調査データに似ているか?
主な発見
- LLMsは顕著な順序バイアスを示し、プロンプトで最初のオプション“A”に強い傾向を持つ。
- 回答順序をランダム化した後、調整後の回答は質問とモデルサイズを問わずほぼ一様になる。
- 調整後のモデル回答は、多くの質問で米国国勢調査分布よりも一様に近い。
- 指示調整とRLHFは回答エントロピーを低下させるが、国勢調査データよりは一様に近い分布のままである。
- 識別子テストはモデル生成データと国勢調査データを97%以上の精度で区別でき、合成と国勢調査の分布が大きく異なることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。