[논문 리뷰] LLM Voting: Human Choices and AI Collective Decision Making
이 논문은 참여예산 설정에서 인간 투표를 LLM 에이전트(GPT-4 Turbo 및 LLaMA-2)의 투표와 비교하여 의사결정, 편향, 및 AI 활용 집단 의사결정에서 다양성과 정확성 간의 트레이드-오프를 밝힌다.
This paper investigates the voting behaviors of Large Language Models (LLMs), specifically GPT-4 and LLaMA-2, their biases, and how they align with human voting patterns. Our methodology involved using a dataset from a human voting experiment to establish a baseline for human preferences and conducting a corresponding experiment with LLM agents. We observed that the choice of voting methods and the presentation order influenced LLM voting outcomes. We found that varying the persona can reduce some of these biases and enhance alignment with human choices. While the Chain-of-Thought approach did not improve prediction accuracy, it has potential for AI explainability in the voting process. We also identified a trade-off between preference diversity and alignment accuracy in LLMs, influenced by different temperature settings. Our findings indicate that LLMs may lead to less diverse collective outcomes and biased assumptions when used in voting scenarios, emphasizing the need for cautious integration of LLMs into democratic processes.
연구 동기 및 목표
- Zurich의 참여 예산 과제를 사용하여 투표 선호도의 인간 기준선을 확립한다.
- 인간과 LLM 에이전트(GPT-4 Turbo 및 LLaMA-2) 간의 집단 결과와 개별 투표 선호도를 비교한다.
- 투표 방식, 목록 제시, 온도(무작위성), 페르소나가 LLM 투표 행동 및 인간과의 정합성에 미치는 영향을 조사한다.
- AI 보조 투표가 민주적 과정에 주는 함의를 평가하고 현재 LLM의 편향 및 한계를 식별한다.
제안 방법
- 같은 24개 프로젝트를 포함하는 제2 PB 시나리오에서 인간 투표자(180명 대학생)와 180명의 LLM 투표자(LLaMA-2 70B 및 GPT-4 Turbo)를 시뮬레이션한다.
- 인간과 LLM 모두에 대해 4가지 다중 승자 투표 방법을 적용한다: 5-Approval, Approval, Cumulative (10 points), 및 Ranked (5-selected).
- 정규식을 사용하여 LLM 출력에서 프로젝트 선택을 추출하고, Ranked 투표에 대해 보드라 카운트를 합산하며 10점 배분을 정규화한다.
- 집단 순위에 대한 Kendall의 tau, 개인 투표에 대한 Jaccard 유사도, 다양성에 대한 Jaccard 거리를 사용하여 합의와 다양성을 평가한다.
- 리스트 제시 효과(선두 효과 및 ID 라벨링)를 탐구하고 인간 설문 선호에 기반한 페르소나를 도입하여 LLM 투표를 안내한다.
- 출력의 무작위성에 대한 연구를 위해 온도(t)를 0에서 2까지 0.5 간격으로 변화시킨다.
실험 결과
연구 질문
- RQ1참여 예산 시나리오에서 LLM 투표 순위가 인간 투표 순위와 얼마나 유사한가?
- RQ2투표 방식, 목록 순서, 숫자 라벨링이 LLM의 투표 행동 및 인간과의 정합성에 어떤 영향을 미치는가?
- RQ3자기보고 선호를 바탕으로 한 페르소나가 LLM의 투표와 인간의 투표 간 정합성을 높일 수 있는가?
- RQ4집단 의사결정에 LLM을 사용할 때 선호의 다양성과 정확성 사이의 트레이드-오프는 무엇인가?
- RQ5현 민주적 투표 맥락에서 현재 LLM이 드러내는 편향과 한계는 무엇인가?
주요 결과
- 인간은 광범위한 찬성 패턴을 보이는 반면, LLaMA-2는 약 7개의 승인된 프로젝트에서 정점을 보이고; GPT-4는 대략 5개 프로젝트를 선택하는 경향이 있다.
- LLaMA-2는 누적 투표에서 종종 10점 한도를 초과하는 반면, GPT-4는 지시를 따르는 경향이 있다.
- 투표 방식 간 일관성은 인간의 경우 가장 높고(평균 Kendall’s tau 0.81), LLaMA-2는 0.45로 낮고 GPT-4는 0.71이다.
- LLMs는 목록 순서와 ID에 민감하다; 역순은 LLaMA-2의 순위를 상당히 재편할 수 있으며(tau ~ -0.2), GPT-4도 영향을 받지만 두 모델 모두 순서 효과를 보인다.
- 페르소나를 추가하면 인간 투표와의 정합성이 증가한다(예: GPT-4의 tau가 페르소나 적용 시 0.391에서 0.543으로 증가).
- 더 높은 온도는 선호의 다양성을 높이지만 인간 투표와의 정합성을 감소시키고, 온도 1은 가장 강한 정합성을 보이지만 다양성은 감소한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.