Skip to main content
QUICK REVIEW

[论文解读] AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Katikapalli Subramanyam Kalyan, Ajit Rajasekharan|arXiv (Cornell University)|Aug 12, 2021
Topic Modeling参考文献 296被引用 38
一句话总结

对基于变换器的预训练语言模型(T-PTLMs)的全面综述,涵盖自监督学习基础、预训练方法/任务、一个新的分类体系、下游适配、基准、库,以及未来研究方向。

ABSTRACT

Transformer-based pretrained language models (T-PTLMs) have achieved great success in almost every NLP task. The evolution of these models started with GPT and BERT. These models are built on the top of transformers, self-supervised learning and transfer learning. Transformed-based PTLMs learn universal language representations from large volumes of text data using self-supervised learning and transfer this knowledge to downstream tasks. These models provide good background knowledge to downstream tasks which avoids training of downstream models from scratch. In this comprehensive survey paper, we initially give a brief overview of self-supervised learning. Next, we explain various core concepts like pretraining, pretraining methods, pretraining tasks, embeddings and downstream adaptation methods. Next, we present a new taxonomy of T-PTLMs and then give brief overview of various benchmarks including both intrinsic and extrinsic. We present a summary of various useful libraries to work with T-PTLMs. Finally, we highlight some of the future research directions which will further improve these models. We strongly believe that this comprehensive survey paper will serve as a good reference to learn the core concepts as well as to stay updated with the recent happenings in T-PTLMs.

研究动机与目标

  • 提供对 T-PTLMs 的自监督学习基础的结构化概述。
  • 基于预训练语料、架构、SSL 类型和扩展,介绍一个新的 T-PTLM 分类体系。
  • 总结预训练方法、任务、嵌入和下游适配技术。
  • 回顾内在和外在评估基准及有用的库。
  • 讨论未来研究方向,以指导 T-PTLMs 的发展。

提出的方法

  • 对自监督学习作为 T-PTLMs 的 backbone 进行全面概述。
  • 解释核心概念:预训练、预训练方法、预训练任务、嵌入和下游适配。
  • 提出跨语料、架构、SSL 与扩展的 T-PTLM 新分类体系。
  • 评审基准(内在与外在)及现有库。
  • 强调领域未来研究方向与挑战。

实验结果

研究问题

  • RQ1基于自监督学习的 Transformer‑based 预训练语言模型背后的基础概念与动机是什么?
  • RQ2可以如何在预训练语料、架构、SSL 类型和扩展等轴上对 T-PTLMs 进行分类(分类体系)?
  • RQ3在 T-PTLMs 中普遍使用的预训练方法、任务和嵌入策略是什么?
  • RQ4用于评估 T-PTLMs 的下游适配方法和评估基准是什么?
  • RQ5哪些库和工具支持使用 T-PTLMs,未来方向可能推动该领域的发展?

主要发现

  • 提出基于预训练语料、架构、SSL 与扩展的新分类体系。
  • 综合了预训练的核心概念和步骤,包括语料准备、词汇生成、预训练任务与动态。
  • 详细描述了多种预训练方法(PTS、CPT、SPT、TAPT、KIPT)和知识继承方法。
  • 回顾下游适配方法(基于特征、微调、基于提示)及内在和外在评估基准。
  • 整理有用的库(如 Huggingface Transformers)并概述提高效率、鲁棒性和隐私性的未来研究方向。
  • 提供一个结构化的参考,以学习核心概念并保持对 T-PTLM 发展的更新。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。