Skip to main content
QUICK REVIEW

[论文解读] AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural Architecture Search

Daoyuan Chen, Yaliang Li|arXiv (Cornell University)|Jan 13, 2020
Topic Modeling参考文献 41被引用 24
一句话总结

AdaBERT 提出了一种基于可微神经架构搜索(NAS)的任务自适应 BERT 压缩方法,联合优化模型效率与特定任务性能。通过引入面向任务的知识蒸馏和效率感知损失,AdaBERT 在保持多个自然语言处理任务上相当准确率的同时,实现了比 BERT 快 12.7 倍至 29.3 倍的推理速度,且模型参数量缩小了 11.5 倍至 17.0 倍。

ABSTRACT

Large pre-trained language models such as BERT have shown their effectiveness in various natural language processing tasks. However, the huge parameter size makes them difficult to be deployed in real-time applications that require quick inference with limited resources. Existing methods compress BERT into small models while such compression is task-independent, i.e., the same compressed BERT for all different downstream tasks. Motivated by the necessity and benefits of task-oriented BERT compression, we propose a novel compression method, AdaBERT, that leverages differentiable Neural Architecture Search to automatically compress BERT into task-adaptive small models for specific tasks. We incorporate a task-oriented knowledge distillation loss to provide search hints and an efficiency-aware loss as search constraints, which enables a good trade-off between efficiency and effectiveness for task-adaptive BERT compression. We evaluate AdaBERT on several NLP tasks, and the results demonstrate that those task-adaptive compressed models are 12.7x to 29.3x faster than BERT in inference time and 11.5x to 17.0x smaller in terms of parameter size, while comparable performance is maintained.

研究动机与目标

  • 为解决在资源受限环境下的实时应用中部署大型预训练 BERT 模型效率低下的问题。
  • 克服现有 BERT 压缩方法的局限性,即生成的模型与任务无关,不适用于特定任务的优化。
  • 开发一种自动化、高效且有效的 BERT 压缩方法,利用神经架构搜索生成任务自适应的小型模型。
  • 通过在搜索过程中整合面向任务的知识蒸馏与效率感知约束,平衡模型效率与性能。

提出的方法

  • AdaBERT 采用可微神经架构搜索(NAS)自动发现任务自适应的 BERT 压缩架构。
  • 基于微调后的 BERT 模型的中间隐藏状态和 logits,使用面向任务的知识蒸馏损失来指导架构搜索。
  • 引入效率感知损失项,基于模型大小和推理速度约束搜索空间,显式建模效率指标。
  • 通过探测模型对 BERT 通用表征中的任务特定知识进行提取,对搜索空间进行分层缩减。
  • 将离散的架构参数松弛为连续分布,实现基于梯度的优化,从而实现高效的架构搜索。
  • 整体损失函数结合了交叉熵损失(用于任务准确率)、知识蒸馏损失(用于知识迁移)和效率感知损失(用于模型效率)。

实验结果

研究问题

  • RQ1可微神经架构搜索能否有效应用于将 BERT 压缩为性能优于与任务无关压缩方法的自适应模型?
  • RQ2在多种自然语言处理任务中,引入面向任务的知识蒸馏如何提升压缩后 BERT 模型的性能?
  • RQ3效率感知损失对压缩 BERT 模型中模型大小、推理速度与准确率之间的权衡有何影响?
  • RQ4AdaBERT 在保持下游自然语言处理任务上具有竞争力的性能前提下,能在多大程度上减小模型尺寸并降低推理时间?

主要发现

  • AdaBERT 在多个自然语言处理任务中,推理速度相比 BERT 提高了 12.7 倍至 29.3 倍。
  • 压缩后的模型参数量相比 BERT 减少了 11.5 倍至 17.0 倍,显著降低了模型占用空间。
  • 在适度的效率系数(β=4)下,AdaBERT 实现了模型大小与性能之间的平衡,优于无约束和过度激进的效率设置。
  • 消融实验表明,将知识蒸馏与监督标签损失结合可提升性能,尤其在 MRPC 和 RTE 等低资源任务上表现更优。
  • 数据增强通过在蒸馏过程中丰富面向任务的知识,进一步提升了小规模数据集上的性能。
  • 该方法成功识别出任务特定的最优架构,证明了任务自适应压缩相较于静态压缩方法的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。