[论文解读] Approaching Human-Level Forecasting with Language Models
一个检索增强的语言模型系统被构建用于预测二元事件,通过检索最新新闻、使用 scratchpad 提示进行推理以及集成预测,达到接近人群表现,在某些设置甚至超越它。
Forecasting future events is important for policy and decision making. In this work, we study whether language models (LMs) can forecast at the level of competitive human forecasters. Towards this goal, we develop a retrieval-augmented LM system designed to automatically search for relevant information, generate forecasts, and aggregate predictions. To facilitate our study, we collect a large dataset of questions from competitive forecasting platforms. Under a test set published after the knowledge cut-offs of our LMs, we evaluate the end-to-end performance of our system against the aggregates of human forecasts. On average, the system nears the crowd aggregate of competitive forecasters, and in some settings surpasses it. Our work suggests that using LMs to forecast the future could provide accurate predictions at scale and help to inform institutional decision making.
研究动机与目标
- 促进自动预测以在二元事件预测方面达到与人类预测者相当的水平。
- 利用检索增强的提示来整合最新信息。
- 开发一种自监督微调方法以提升预测推理能力。
- 在一个最新的大型数据集上对端到端预测与人群聚合进行评估。
提出的方法
- 构建一个带查询生成、相关性排序和文章摘要的检索增强 LM 流程。
- 使用一个推理模块,通过对精心设计的 scratchpad 提示,从问题上下文和文章摘要中生成预测。
- 在自监督数据上微调模型,使模型输出在推理方面超过人群以提升推理能力。
- 使用截尾平均对多个预测进行集成以产生最终预测。
- 使用 Brier 分数和校准指标对端到端系统进行评估,与人群聚合进行对比。
- 进行超参数搜索以优化检索、提示和集成策略。

实验结果
研究问题
- RQ1检索增强的 LM 系统是否能够达到或接近人群预测的二元事件预测水平?
- RQ2检索质量、推理提示和集成对预测准确性和校准有何影响?
- RQ3对推理进行自监督微调是否能提高相对于零-shot 基线的预测性能?
- RQ4在选择性或带条件的选择设置下,该系统是否优于人群?
主要发现
- 端到端系统在所有问题上接近人群表现,Brier 分数为 0.179,而人群为 0.149(在测试集上的平均值)。
- 在聚合准确度方面,系统在所有问题上的准确率为 71.5%,而人群为 77.0%。
- 在选择性设置且有足够相关的文章时,系统在某些指标上可以优于人群聚合。
- 系统保持良好的校准,RMS 校准与人群相当,在零-shot 设置中对基线模型有改进。
- 检索至少 5 篇相关文章并尽早的检索日期相比人群提升了性能。
- 在预测胜过人群的数据上对推理 LM 进行微调可以带来更强的预测能力。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。