Skip to main content
QUICK REVIEW

[论文解读] FastBERT: a Self-distilling BERT with Adaptive Inference Time

Weijie Liu, Peng Zhou|arXiv (Cornell University)|Apr 5, 2020
Topic Modeling参考文献 29被引用 57
一句话总结

FastBERT 引入逐样自适应推理机制和自蒸馏,在单一框架内加速类似 BERT 的模型,同时保持准确性,使速度提升从 1x 到 12x,具体取决于所需的权衡。

ABSTRACT

Pre-trained language models like BERT have proven to be highly performant. However, they are often computationally expensive in many practical scenarios, for such heavy models can hardly be readily implemented with limited resources. To improve their efficiency with an assured model performance, we propose a novel speed-tunable FastBERT with adaptive inference time. The speed at inference can be flexibly adjusted under varying demands, while redundant calculation of samples is avoided. Moreover, this model adopts a unique self-distillation mechanism at fine-tuning, further enabling a greater computational efficacy with minimal loss in performance. Our model achieves promising results in twelve English and Chinese datasets. It is able to speed up by a wide range from 1 to 12 times than BERT if given different speedup thresholds to make a speed-performance tradeoff.

研究动机与目标

  • 动机:在工业环境中,面对不同请求负载,降低 BERT 的推理成本。
  • 提出:一个速度可调的 BERT 变体(FastBERT),具备逐样自适应推理和自蒸馏训练机制。
  • 展示:FastBERT 在十二项英语/中文 NLP 任务上实现显著的加速(1–12x),同时保持最小的准确性损失。
  • 展示:与现有的 BERT 风格模型的兼容性以及实际部署的好处。

提出的方法

  • 主干网络:一个 12 层 Transformer 编码器,带有一个教师分类器。
  • 分支:将轻量级的学生分类器附着在每个 Transformer 输出上以实现提前退出。
  • 训练:三阶段过程——主干网络预训练、主干网络微调,以及通过 KL 散度对教师输出进行自蒸馏学生分支。
  • 自蒸馏:使用教师软标签来监督同一模型内的所有学生分支,使蒸馏能够使用无标签数据。
  • 自适应推理:在每一层,计算学生输出的归一化熵(不确定性),并在不确定性低于速度阈值(Speed)时停止样本。
  • 不确定性–速度规则:较低的不确定性意味着更高的准确性(LUHA 假说),而更高的 Speed 会带来更快的整体推理。

实验结果

研究问题

  • RQ1引入逐样自适应推理是否能在与 BERT 相比的情况下在最小的准确性损失下减少计算量?
  • RQ2在单一模型内的自蒸馏是否能够在不使用外部教师模型的情况下提升学生分支的性能?
  • RQ3在多样的英语和中文 NLP 任务中,速度-精度权衡的表现如何?
  • RQ4LUHA 假说在各层和数据集中是否得到验证?

主要发现

  • FastBERT 在 Speed=0.1 时,大多数数据集实现了 2–5x 的加速,准确性损失可以忽略。
  • 在允许更大准确性损失的情况下,FastBERT 可实现相对于 BERT 的 7–11x 加速。
  • 该模型的速度提升范围为 1x 到 12x,取决于所选的 Speed 阈值,同时保持具有竞争力的准确性。
  • 自适应推理通过将更容易的样本转移到早期退出,显著降低 FLOPs,如层级退出分布所示。
  • 自蒸馏使一组轻量级学生分类器接近教师性能,同时在推理阶段降低总体 FLOPs。
  • LUHA 假说经过实证验证:较低的不确定性与底部、中部和顶部分类器的更高准确性相关。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。