QUICK REVIEW

[论文解读] Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina

Yuan Gao, Dokyun Lee|arXiv (Cornell University)|Oct 25, 2024

Law, AI, and Intellectual Property被引用 6

一句话总结

该论文实证表明，先进的LLMs在简单的11-20 Money Request Game中在很大程度上无法模仿人类分布，对模型和提示的稳定性存在不确定性，并且在没有仔细文档和评估的情况下谨慎将LLMs作为人类替代品。

ABSTRACT

Recent studies suggest large language models (LLMs) can exhibit human-like reasoning, aligning with human behavior in economic experiments, surveys, and political discourse. This has led many to propose that LLMs can be used as surrogates or simulations for humans in social science research. However, LLMs differ fundamentally from humans, relying on probabilistic patterns, absent the embodied experiences or survival objectives that shape human cognition. We assess the reasoning depth of LLMs using the 11-20 money request game. Nearly all advanced approaches fail to replicate human behavior distributions across many models. Causes of failure are diverse and unpredictable, relating to input language, roles, and safeguarding. These results advise caution when using LLMs to study human behavior or as surrogates or simulations.

研究动机与目标

评估LLMs是否能作为社会科学实验中人类行为的可靠代理。
考察设计选择（提示、角色、语言、记忆）如何影响LLM推理深度和行为。
识别妨碍复制和向人类类行为泛化的LLMs的失败模式与局限性。
为研究人员在进行严格文档化的前提下将LLMs作为代理进行部署提供指南。

提出的方法

在11-20 Money Request Game中，对八种流行的LLM（GPT-4, GPT-3.5, Claude3-Opus, Claude3-Sonnet, Llama3-70b, Llama3-8b, Llama2-13b, Llama2-7b）进行每模型1,000个干净会话的评估。
将LLM的响应分布与人类分布及Arad和Rubinstein (2012) 的纳什均衡预测进行比较。
测试OOD提示与包含人类示例的提示、检索增强生成（RAG）以及微调的效果比较。
研究提示变体（内嵌示例、零样本提示、角色分配、多语言）以评估提示的易碎性。
访谈LLMs以收集它们对自己选择的自述推理。
分析失败模式并讨论对LLMs作为人类替代品的影响。
结合三种策略（提示工程、微调、RAG）来评估它们是否能产生类似人类的行为。

实验结果

研究问题

RQ1LLMs在不同模型尺寸和家族中，是否在11-20 Money Request Game中产生类似人类的分布？
RQ2输入设计（角色、语言、提示）如何影响LLM推理深度和与人类行为的一致性？
RQ3提示、RAG或微调是否能使LLMs在简单经济游戏中复制人类决策分布？
RQ4阻碍LLMs作为可靠人类替代品的主要失败模式与障碍是什么？
RQ5使用LLMs作为替代品以确保可复制性和透明性时，研究者应遵循哪些指南？

主要发现

大多数高级LLMs，除GPT-3.5外，偏好20或19，表明在11-20游戏中的推理水平低于典型的人类深度两步。
LLMs的响应分布通常在统计上显著地与人类分布不同（p < 0.001, Jensen-Shannon 距离）。
不同模型之间的响应模式差异显著，且更大模型不一定更接近人类；一些模型的深度低于人类，或存在高会话间变异性。
对OOD的方法以诱发人类般行为基本失败；只有微调GPT-4o得到的分布与人类在统计上不可区分。
通过提示或RAG提供明确的人类示例可略微提高相似性，但并不能完全复制人类分布；对GPT-4o的微调实现了更接近的一致性。
提示框架（角色、语言）和示例提供会导致LLM行为的不稳定性和提示易碎性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。