QUICK REVIEW

[论文解读] The Cost of Training NLP Models: A Concise Overview

Or Sharir, Barak Peleg|arXiv (Cornell University)|Apr 19, 2020

Topic Modeling参考文献 11被引用 114

一句话总结

本文综述了训练大型NLP模型的驱动因素与成本，强调总体成本上升、关键成本驱动因素，以及未来可能的降低支出方向。

ABSTRACT

We review the cost of training large-scale language models, and the drivers of these costs. The intended audience includes engineers and scientists budgeting their model-training experiments, as well as non-practitioners trying to make sense of the economics of modern-day Natural Language Processing (NLP).

研究动机与目标

评估当前和未来对训练大型NLP模型的成本。
识别驱动训练成本的主要因素（数据、模型规模和训练量）。
讨论隐藏成本以及实验的实际预算考虑。
提供对未来趋势和潜在降成本方法的看法。

提出的方法

评审并综合行业与学术界关于NLP训练成本的报告。
提供不同参数规模下训练BERT级别模型的粗略成本范围。
讨论影响 FLOPs 和超出单次训练的总训练支出的因素。
将NLP成本动态与计算机视觉进行比较以便于理解差异。

实验结果

研究问题

RQ1在标准语料上训练不同规模的NLP模型（例如110M、340M、1.5B参数）的当前粗略成本是多少？
RQ2哪些因素（数据集大小、模型规模、训练量）主要驱动NLP训练成本？
RQ3诸如超参数调优和多次训练之类的隐藏成本如何使总支出增加？
RQ4哪些未来趋势或策略可以抑制NLP训练成本的增长？

主要发现

每次训练的成本大致在$2.5k到$1.6m之间，取决于模型规模（110M到1.5B参数）。
大型项目（如11B参数模型）每次训练可能超过$130万，在包含多次训练和较小配置时，总项目成本可能约为$1000万美元。
成本预计随着模型/数据规模的扩大而上升，但若干因素可能缓解这一趋势（计算价格下降、更高效的架构、减少SOTA竞赛、数据规模更大但更有用、以及整合结构化知识）。
隐藏成本包括为应对随机性和超参数搜索而多次训练模型，导致成本超过单次训练。
与计算机视觉的差异意味着NLP因基于Transformer的架构以及在大规模文本语料上进行自监督学习而面临更高的成本。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。