[论文解读] LLM Voting: Human Choices and AI Collective Decision Making
该论文比较参与式预算环境中的人工投票与LLM代理(GPT-4 Turbo 与 LLaMA-2)的投票,揭示决策过程中的差异、偏见,以及AI 支持的集体决策中多样性与准确性之间的权衡。
This paper investigates the voting behaviors of Large Language Models (LLMs), specifically GPT-4 and LLaMA-2, their biases, and how they align with human voting patterns. Our methodology involved using a dataset from a human voting experiment to establish a baseline for human preferences and conducting a corresponding experiment with LLM agents. We observed that the choice of voting methods and the presentation order influenced LLM voting outcomes. We found that varying the persona can reduce some of these biases and enhance alignment with human choices. While the Chain-of-Thought approach did not improve prediction accuracy, it has potential for AI explainability in the voting process. We also identified a trade-off between preference diversity and alignment accuracy in LLMs, influenced by different temperature settings. Our findings indicate that LLMs may lead to less diverse collective outcomes and biased assumptions when used in voting scenarios, emphasizing the need for cautious integration of LLMs into democratic processes.
研究动机与目标
- 在苏黎世的参与式预算任务中为投票偏好建立人类基线。
- 比较人类与 LLM 代理(GPT-4 Turbo 与 LLaMA-2)在集体结果和个人投票偏好上的差异。
- 研究投票方法、清单呈现、温度(随机性)和人格设定如何影响 LLM 的投票行为及其与人类的一致性。
- 评估 AI 辅助投票对民主进程的影响,并识别当前 LLM 的偏见与局限。
提出的方法
- 在相同的 24 个项目上,使用人类投票者(180 名大学生)并模拟 180 名 LLM 投票者(LLaMA-2 70B 与 GPT-4 Turbo),适用于苏黎世参与式预算场景。
- 对人类和 LLM 同时应用四种多候选人投票方法:5-Approval、Approval、Cumulative(10 分)、Ranked(5 选) 。
- 用正则表达式解析 LLM 输出以提取项目选择;对排名投票使用Borda计数汇总,并对10分分配进行归一化。
- 使用 Kendall 的 tau 对聚合排名的一致性进行评估,使用 Jaccard 相似度评估个体投票,以及使用 Jaccard 距离评估多样性。
- 探讨清单呈现效应(首要性与ID标记),并基于人类调查偏好引入人格设定以引导 LLM 投票。
- 将温度(t)从0到2,步长0.5,以研究输出中的随机性效应。
实验结果
研究问题
- RQ1在参与式预算情景中,LLM 投票排名与人类投票排名有多相似?
- RQ2投票方法、清单顺序和数字标记如何影响 LLM 投票行为及其与人类的一致性?
- RQ3基于自我报告偏好的人格设定是否能改善 LLM 投票与人类投票之间的一致性?
- RQ4在使用 LLM 进行集体决策时,偏好多样性与准确性之间的权衡是什么?
- RQ5当前 LLM 在民主投票情境中暴露出哪些偏见和局限?
主要发现
- 人类呈现广泛的认可模式;LLaMA-2 大约在 7 个获批项目处达到峰值;GPT-4 倾向选择约 5 个项目。
- 在累积分投票中,LLaMA-2 常常超过 10 分上限,而 GPT-4 则遵循指令。
- 所有投票方法的一致性对人类最高(平均 Kendall’s tau 0.81),对 LLaMA-2 较低(0.45),相较于 GPT-4 的 0.71。
- LLMs 对清单顺序和 ID 很敏感;颠倒顺序会显著改变 LLaMA-2 的排名(tau 约 -0.2),并影响 GPT-4,尽管两者都显示排序效应。
- 添加人格设定可提高与人类投票的一致性(例如,GPT-4 的 tau 从 0.391 提升至 0.543,使用人格设定)。
- 较高的温度产生更丰富的偏好,但降低了与人类投票的一致性;而温度为1时对齐最强,但多样性降低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。