QUICK REVIEW
[论文解读] Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Translation
Ali merali|arXiv (Cornell University)|Sep 4, 2024
Italy: Economic History and Contemporary Issues被引用 5
一句话总结
该论文通过对13种模型、覆盖300名专业翻译的预注册随机对照试验,建立了将大型语言模型训练计算投入与翻译生产力、质量与收入相关的经验性缩放定律。
ABSTRACT
This paper derives "scaling laws"--empirical relationships between the training compute of Large Language Models (LLMs) and their performance--for economic outcomes. In a preregistered online experiment, 300 professional translators completed 1,800 tasks using one of 13 LLMs (or a control). A tenfold increase in model compute improved task completion speed by 12.3%, grades by 0.18 standard deviations, and earnings per minute by 16.1%. Gains were four times larger for lower-skilled workers. These findings suggest continued model scaling could boost U.S. productivity by at least 6.9% over the next decade.
研究动机与目标
- 激发对前沿大型语言模型计算投入如何转化为劳动者经济产出的理解。
- 量化在专业任务中模型计算投入规模化对生产力、质量与收入的影响。
- 检验翻译者技能水平差异对收益的异质性。
- 为人工智能尺度化定律和技能偏向型工资效应的文献做出贡献。
提出的方法
- 开展一项在线的预注册随机对照试验,参与者为300名专业翻译。
- 将参与者分配使用十三种训练计算投入不同的LLM之一,或分配到无AI对照组。
- 让参与者完成6个翻译任务,每个大约十分钟,并设置高额绩效激励。
- 测量每个任务用时、由三位人类专家评分的质量等级,以及包括奖金在内的每分钟收入。
- 使用回归分析对模型计算投入进行缩放效应分析并登记效应(例如10倍计算投入的增量)。
实验结果
研究问题
- RQ1更高的模型训练计算投入水平是否提升翻译任务的速度和质量?
- RQ2模型计算投入的缩放定律如何转化为每分钟收入等经济结果?
- RQ3计算投入带来的生产力提升是否因翻译者的基线技能而异?
- RQ4在不同语言之间,模型计算投入的缩放与翻译任务质量之间的关系如何?
主要发现
- 模型计算投入每增加10倍,任务完成速度提高12.3%(p=0.001)。
- 计算投入增加10倍,对质量等级的标准差提升0.18(p=0.000)。
- 每增加10倍计算投入,每分钟收入增加16.1%(p=0.001)。
- 约70x 的计算投入的GPT跃迁导致每个模型跃迁的用时减少22.7%并且每分钟收入增加29.7%。
- 低技能翻译者从计算投入扩展中获得的收益远大于高技能翻译者(每10x减少时间21.1% vs 10x降低4.9%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。