[论文解读] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
本论文分析如何在测试时分配计算资源以优化大型语言模型(LLMs),结果显示计算最优策略在多种基线之上,并且在 FLOPs 匹配设置下,通过有效使用测试时计算甚至可以在不增加预训练的情况下超越更大模型。
Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of inference-time computation in LLMs, with a focus on answering the question: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? Answering this question has implications not only on the achievable performance of LLMs, but also on the future of LLM pretraining and how one should tradeoff inference-time and pre-training compute. Despite its importance, little research attempted to understand the scaling behaviors of various test-time inference methods. Moreover, current work largely provides negative results for a number of these strategies. In this work, we analyze two primary mechanisms to scale test-time computation: (1) searching against dense, process-based verifier reward models; and (2) updating the model's distribution over a response adaptively, given the prompt at test time. We find that in both cases, the effectiveness of different approaches to scaling test-time compute critically varies depending on the difficulty of the prompt. This observation motivates applying a "compute-optimal" scaling strategy, which acts to most effectively allocate test-time compute adaptively per prompt. Using this compute-optimal strategy, we can improve the efficiency of test-time compute scaling by more than 4x compared to a best-of-N baseline. Additionally, in a FLOPs-matched evaluation, we find that on problems where a smaller base model attains somewhat non-trivial success rates, test-time compute can be used to outperform a 14x larger model.
研究动机与目标
- 促使在具有挑战性提示下使用额外的测试时计算以提升LLM输出。
- 将提议分布的改进与基于验证器的搜索统一为测试时计算的机制。
- 提出一种计算最优的扩展策略,能够对每个提示自适应分配计算资源。
- 在 FLOP 匹配条件下评估测试时计算与预训练规模的对比。
- 证明是否通过测试时计算的小模型能在没有额外预训练的情况下超越需要更大预训练的模型。
提出的方法
- 将测试时计算视为在给定提示的输出分布上的调参的模型无关形式化框架。
- 比较两种主要机制:(i) 通过序列生成或并行生成对提议分布进行修订,(ii) 针对一个基于过程的验证模型(PRM)进行搜索。
- 使用基模型的蒙特卡洛滚动中的每步正确性估计,在没有人工标签的情况下训练一个PRM。
- 对PRM评估三种搜索方法:best-of-N 加权、束搜索(beam search)和前瞻搜索(lookahead search)。
- 定义一种计算最优策略,在固定计算预算下为给定提示选择超参数以最大化准确性。
- 使用模型预测的或 oracle 难度将提示难度分为五个等级,以指导按难度分配计算资源。

实验结果
研究问题
- RQ1测试时计算能否在预算内对每个提示进行最优分配以最大化准确性?
- RQ2不同的测试时策略(修订 vs. 基于PRM的搜索)如何随提示难度和计算预算变化扩大?
- RQ3计算最优的测试时计算是否超过 best-of-N 基线,超过的幅度是多少?
- RQ4在 FLOPs 匹配的设置下,较小模型的测试时计算能否超过显著更大的模型?
- RQ5对测试时策略的难度条件化计算分配的实际收益与局限性有哪些?
主要发现
- 计算最优扩展在多次修订和 PRM 搜索中,测试时计算量最多可比 best-of-N 少约 4× 而性能更优。
- 基于 PRM 的搜索呈现出依难度而定的有效性;束搜索在更难/低预算的提示上有帮助,而在较高预算下,较易提示时 best-of-N 可能更具优势。
- 在容易到中等难度的提示上,在 FLOPs 匹配下可以超过一个大 14× 的模型在某些条件下。
- 基于修订的提议在更长的修订链上表现改进,表明模型从上下文中的错误中学习。
- 基于难度估计的策略实现自适应分配,能在各种提示类型上接近或达到最佳策略。
- 由于对验证器信号的过拟合,随着预算增加,搜索方法的收益递减。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。