[论文解读] BERT Loses Patience: Fast and Robust Inference with Early Exit
基于耐心的早退出(PABEE)在预训练语言模型的每一层上附加一个内部分类器,当预测在连续 t 步中稳定时退出,从而提升速度和准确性(例如 ALBERT-base 实现约1.57x的加速和更高的GLUE分数)。
In this paper, we propose Patience-based Early Exit, a straightforward yet effective inference method that can be used as a plug-and-play technique to simultaneously improve the efficiency and robustness of a pretrained language model (PLM). To achieve this, our approach couples an internal-classifier with each layer of a PLM and dynamically stops inference when the intermediate predictions of the internal classifiers remain unchanged for a pre-defined number of steps. Our approach improves inference efficiency as it allows the model to make a prediction with fewer layers. Meanwhile, experimental results with an ALBERT model show that our method can improve the accuracy and robustness of the model by preventing it from overthinking and exploiting multiple classifiers for prediction, yielding a better accuracy-speed trade-off compared to existing early exit methods.
研究动机与目标
- 通过在推理阶段解决过度思考的问题,激发降低大型预训练语言模型的推理成本和延迟。
- 提出一种动态的早退出机制,利用内部分类器之间的跨层一致性来决定何时停止计算。
- 证明该方法在 GLUE 基准测试上既能提升准确性又能加速推理。
- 表明与以往基于预测分数的退出相比,PABEE 能提升对抗性鲁棒性。
提出的方法
- 在预训练语言模型的每一层之后附加一个内部分类器。
- 计算每一层的预测,并统计在顶层预测未改变的连续步数,直到达到耐心阈值 t。
- 在满足连续稳定条件 cnt = t 的层处提前退出;否则使用最终层分类器。
- 将内部分类器与基础模型共同训练,使用一个将所有层特定损失加权组合的损失函数。
- 给出一个理论条件,说明在某些情况下 PABEE 相对于标准推理可以提高准确性。
- 在 ALBERT-base/BERT-base 上实现并在 GLUE 基准和对抗鲁棒性测试中进行评估。
实验结果
研究问题
- RQ1基于耐心的跨层退出准则能否相对于单层退出准则提升 PLMs 的准确性和效率?
- RQ2在降低推理潜伏期的同时,PABEE 能否保持或提升对对抗性文本攻击的鲁棒性?
- RQ3耐心参数 t 如何影响 GLUE 任务中的速度-准确性权衡?
- RQ4PABEE 是否在不同的主干模型(ALBERT/BERT)和不同深度下有效?
主要发现
- PABEE 在 GLUE 任务上实现显著的加速(例如 ALBERT-base 下 1.57x),同时提高或保持准确性。
- PABEE 在多项任务的速度-准确性权衡上优于基于预测概率的退出方法(BranchyNet、Shallow-Deep)。
- 该方法相对于基线带来对抗鲁棒性的提升,增加攻击者需要进行的查询次数。
- 在使用 PABEE 增加模型深度时(如 ALBERT-large,24 层),仍然提供准确性提升且有显著的加速。
- 训练开销适中,增加不到 0.4% 的参数,且训练速度无显著下降。
- PABEE 的准确性对速度的影响随耐心参数呈现倒U形曲线,指示 t 的最优区间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。