[论文解读] Cost-Effective Hyperparameter Optimization for Large Language Model Generation Inference
EcoOptiGen 在预算约束下联合调优推理超参数,使用具成本感知的贝叶斯/局部搜索并结合剪枝,在多项LLM任务中相对于默认的HELM设置提升了效用。
Large Language Models (LLMs) have sparked significant interest in their generative capabilities, leading to the development of various commercial applications. The high cost of using the models drives application builders to maximize the value of generation under a limited inference budget. This paper presents a study of optimizing inference hyperparameters such as the number of responses, temperature and max tokens, which significantly affects the utility/cost of text generation. We design a framework named EcoOptiGen which leverages economical hyperparameter optimization and cost-based pruning. Experiments with the GPT-3.5/GPT-4 models on a variety of tasks verify its effectiveness. EcoOptiGen is implemented in the `autogen' package of the FLAML library: \url{https://aka.ms/autogen}.
研究动机与目标
- 动机:在固定成本预算下,优化推理时超参数以最大化效用的必要性。
- 提出 EcoOptiGen,一种具有成本裁剪的经济型超参数优化框架。
- 展示联合超参数调优比天真、默认或单一参数调整得到更好的结果。
- 展示在代码生成、数学问题求解和文本摘要任务中的有效性。
提出的方法
- 定义用于在成本预算下量化生成质量的调优数据和效用函数。
- 使用经济型搜索策略(BlendSearch),将贝叶斯优化和局部搜索相结合以提高效率。
- 引入带有剪枝策略的配置评估器,基于成本/令牌在早期丢弃无效试验。
- 提供默认搜索空间,并允许用户自定义超参数,如 n、max_tokens、temperature、top_p 以及 prompts。
- 进行渐进式数据子采样和 Hoeffding-Serfling 边界,以剪枝试验并节省令牌。
- 将 EcoOptiGen 应用于 GPT-3.5/GPT-4 风格的模型,在 APPS、HumanEval、MATH 和 XSum 上,与 HELM 及其他基线进行比较。
实验结果
研究问题
- RQ1在给定推理预算下,EcoOptiGen 相对于默认 HELM 设置能获得多少效用?
- RQ2改变推理预算如何影响 EcoOptiGen 的优化结果?
- RQ3在对不同的 GPT-3.5/ChatGPT 模型进行调优时,EcoOptiGen 的表现如何?
- RQ4联合超参数优化是否比单纯增加回应数量更有效?
- RQ5剪枝对优化效率与最终效用的影响是什么?
主要发现
| 方法 | APPS | HumanEval | MATH | XSum |
|---|---|---|---|---|
| HELM | 0.03 | 0.465 | 0.378 | 0.140 |
| EcoOptiGen (HELM budget) | 0.05 | 0.521 | 0.414 | 0.144 |
| Search | 0 | 0.493 | 0.769 | 0.136 |
| Search+PSR | 0 | 0.493 | 0.739 | - |
| EcoOptiGen | 0.05 | 0.792 | 0.771 | 0.144 |
| HELM (modified) | 0.03 | 0.701 | 0.403 | 0.140 |
- EcoOptiGen 在所有四个数据集上均超越 HELM 中未调优的最佳 GPT-3.5 模型。
- 剪枝与多参数联合调优相比于未剪枝或仅单一参数的方法,带来显著的效率和性能提升。
- 调优后的模型可能与 HELM 推荐的模型不同;最佳模型因数据集和预算而异。
- 通常增加推理预算可以实现更高的优化效用,前提是优化预算充足。
- 在 MATH 上评估 ChatGPT 模型时,调优后的 GPT-3.5-turbo 在某些水平可优于未调优的 GPT-4,说明模型选择与任务和预算相关。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。