QUICK REVIEW
[论文解读] The Cost of Training NLP Models: A Concise Overview
Or Sharir, Barak Peleg|arXiv (Cornell University)|Apr 19, 2020
Topic Modeling参考文献 11被引用 114
一句话总结
本文综述了训练大型NLP模型的驱动因素与成本,强调总体成本上升、关键成本驱动因素,以及未来可能的降低支出方向。
ABSTRACT
We review the cost of training large-scale language models, and the drivers of these costs. The intended audience includes engineers and scientists budgeting their model-training experiments, as well as non-practitioners trying to make sense of the economics of modern-day Natural Language Processing (NLP).
研究动机与目标
- 评估当前和未来对训练大型NLP模型的成本。
- 识别驱动训练成本的主要因素(数据、模型规模和训练量)。
- 讨论隐藏成本以及实验的实际预算考虑。
- 提供对未来趋势和潜在降成本方法的看法。
提出的方法
- 评审并综合行业与学术界关于NLP训练成本的报告。
- 提供不同参数规模下训练BERT级别模型的粗略成本范围。
- 讨论影响 FLOPs 和超出单次训练的总训练支出的因素。
- 将NLP成本动态与计算机视觉进行比较以便于理解差异。
实验结果
研究问题
- RQ1在标准语料上训练不同规模的NLP模型(例如110M、340M、1.5B参数)的当前粗略成本是多少?
- RQ2哪些因素(数据集大小、模型规模、训练量)主要驱动NLP训练成本?
- RQ3诸如超参数调优和多次训练之类的隐藏成本如何使总支出增加?
- RQ4哪些未来趋势或策略可以抑制NLP训练成本的增长?
主要发现
- 每次训练的成本大致在$2.5k到$1.6m之间,取决于模型规模(110M到1.5B参数)。
- 大型项目(如11B参数模型)每次训练可能超过$130万,在包含多次训练和较小配置时,总项目成本可能约为$1000万美元。
- 成本预计随着模型/数据规模的扩大而上升,但若干因素可能缓解这一趋势(计算价格下降、更高效的架构、减少SOTA竞赛、数据规模更大但更有用、以及整合结构化知识)。
- 隐藏成本包括为应对随机性和超参数搜索而多次训练模型,导致成本超过单次训练。
- 与计算机视觉的差异意味着NLP因基于Transformer的架构以及在大规模文本语料上进行自监督学习而面临更高的成本。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。