[論文レビュー] LLM Voting: Human Choices and AI Collective Decision Making
本論文は、参加型予算設定における人間の投票と、LLMエージェント(GPT-4 TurboとLLaMA-2)による投票を比較し、意思決定、バイアス、AI搭載の集合意思決定における多様性と正確性のトレードオフの差異を明らかにする。
This paper investigates the voting behaviors of Large Language Models (LLMs), specifically GPT-4 and LLaMA-2, their biases, and how they align with human voting patterns. Our methodology involved using a dataset from a human voting experiment to establish a baseline for human preferences and conducting a corresponding experiment with LLM agents. We observed that the choice of voting methods and the presentation order influenced LLM voting outcomes. We found that varying the persona can reduce some of these biases and enhance alignment with human choices. While the Chain-of-Thought approach did not improve prediction accuracy, it has potential for AI explainability in the voting process. We also identified a trade-off between preference diversity and alignment accuracy in LLMs, influenced by different temperature settings. Our findings indicate that LLMs may lead to less diverse collective outcomes and biased assumptions when used in voting scenarios, emphasizing the need for cautious integration of LLMs into democratic processes.
研究の動機と目的
- チューリッヒでの参加型予算タスクを用いた投票嗜好の人間ベースラインを確立する。
- 人間とLLMエージェント(GPT-4 TurboとLLaMA-2)間の集合的成果と個々の投票嗜好を比較する。
- 投票方法、リスト提示、温度(ランダム性)、およびペルソナがLLMの投票行動と人間との整合性にどう影響するかを調査する。
- AI支援投票が民主的プロセスにもたらす影響を評価し、現行LLMsのバイアスと限界を特定する。
提案手法
- 人間有権者(180名の大学生)を用い、同じ24プロジェクトにおいてZurich PBシナリオで180名のLLM有権者(LLaMA-2 70BとGPT-4 Turbo)を同時にシミュレートする。
- 人間とLLMの両方に対して、5-Approval、Approval、Cumulative(10点)、Ranked(5選択)という4つのマルチウィナー投票法を適用する。
- 正規表現でLLM出力を解析してプロジェクト選択を抽出し、Ranked投票にはボルダ・カウントを集計し、10点配分を正規化する。
- aggregated rankings に対して Kendall’s tau を用いた一致度、個別投票に対して Jaccard 類似度、多様性には Jaccard 距離を用いて評価する。
- リスト提示効果(先頭効果とIDラベリング)を探索し、人間の調査嗜好に基づくペルソナを導入してLLMの投票を導く。
- 出力のランダム性を研究するため、温度(t)を0から2まで0.5刻みで変化させる。
実験結果
リサーチクエスチョン
- RQ1LLM投票ランキングは、参加型予算シナリオにおける人間の投票ランキングとどれくらい似ているか。
- RQ2投票方法、リスト順、数値ラベリングがLLMの投票行動と人間との整合性にどのように影響するか。
- RQ3自己申告の嗜好に基づくペルソナは、LLMの投票と人間の投票の整合性を高め得るか。
- RQ4LLMを用いた集合的意思決定で、嗜好の多様性と正確性のトレードオフはどうなるか。
- RQ5現行のLLMsが民主的な投票文脈で示すバイアスと限界は何か。
主な発見
- 人間は広範な承認パターンを示す;LLaMA-2は承認プロジェクト数が約7でピークを迎えることが多い;GPT-4は約5件のプロジェクトを選択する傾向。
- LLaMA-2は累積投票でしばしば10点制限を超えるが、GPT-4は指示に従う。
- 投票方法全体の一貫性は人間で最も高く(平均 Kendall’s tau 0.81)、LLMはLLaMA-2で0.45、GPT-4で0.71と低め。
- LLMsはリスト順とIDに敏感であり、順序を逆にするとLLaMA-2のランキングが大きく再配置される(tau ~ -0.2)、GPT-4にも影響が出るが、いずれも順序効果を示す。
- ペルソナを追加すると人間の投票との整合性が高まる(例:GPT-4の tau がペルソナ追加前の0.391から0.543へ)。
- 温度を高くすると嗜好の多様性が増す一方、人間の投票との整合性は低下する。温度1は最も整合性が高いが多様性は低下する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。