Skip to main content
QUICK REVIEW

[论文解读] A Survey on Self-supervised Pre-training for Sequential Transfer Learning in Neural Networks

Huanru Henry Mao|arXiv (Cornell University)|Jul 1, 2020
Domain Adaptation and Few-Shot Learning被引用 26
一句话总结

本综述全面概述了计算机视觉、自然语言处理和语音/音频领域中用于序列迁移学习的自监督预训练方法。它将自监督学习分为基于瓶颈的方法和基于预测的方法,突出关键的预训练任务,并指出未来方向,如多模态学习和超越微调的少样本探针。

ABSTRACT

Deep neural networks are typically trained under a supervised learning framework where a model learns a single task using labeled data. Instead of relying solely on labeled data, practitioners can harness unlabeled or related data to improve model performance, which is often more accessible and ubiquitous. Self-supervised pre-training for transfer learning is becoming an increasingly popular technique to improve state-of-the-art results using unlabeled data. It involves first pre-training a model on a large amount of unlabeled data, then adapting the model to target tasks of interest. In this review, we survey self-supervised learning methods and their applications within the sequential transfer learning framework. We provide an overview of the taxonomy for self-supervised learning and transfer learning, and highlight some prominent methods for designing pre-training tasks across different domains. Finally, we discuss recent trends and suggest areas for future investigation.

研究动机与目标

  • 为计算机视觉、自然语言处理和语音/音频等多样化领域中的自监督预训练技术在序列迁移学习中的应用提供统一的综述。
  • 将自监督学习方法分类并分析为基于瓶颈和基于预测的两类方法,并辅以各领域的具体示例。
  • 考察预训练任务在提升下游迁移性能中的作用,并识别有效预训练的设计原则。
  • 讨论近期趋势,如多任务学习、少样本探针以及自监督模型中的架构灵活性。
  • 识别开放挑战和未来研究方向,包括多模态学习以及从大规模预训练模型中高效提取知识。

提出的方法

  • 将自监督学习划分为两大范式:基于瓶颈的方法通过模型架构强制信息压缩,基于预测的方法则训练模型预测被掩码或上下文相关的数据。
  • 回顾了具有代表性的预训练任务,如掩码自编码、对比学习和下一句预测,强调其与下游任务的对齐性。
  • 分析模型规模和数据量的影响,主张通过更大模型和更多数据来提升表征质量。
  • 评估架构灵活性,特别是Transformer相较于RNN在自监督学习中的优势,包括更低的归纳偏置和更优的梯度流动。
  • 讨论迁移学习策略,包括微调以及多任务学习和少样本提示等替代性适配技术。
  • 提出结合多种预训练目标可获得优于单一任务的性能,表明表征学习中存在协同增益效应。

实验结果

研究问题

  • RQ1基于瓶颈和基于预测的自监督学习方法在架构和学习目标上存在哪些差异?
  • RQ2在视觉、自然语言处理和语音领域中,哪些预训练任务对序列迁移学习最为有效?
  • RQ3模型规模和训练数据规模在多大程度上能提升自监督预训练的性能?
  • RQ4灵活的架构(如Transformer)是否能在自监督序列学习中优于循环模型?
  • RQ5除了微调之外,还有哪些替代性的知识适配技术可有效将预训练模型的知识迁移至下游任务?

主要发现

  • 结合多种预训练任务可获得优于单一任务的性能,表明表征学习中存在协同增益效应。
  • 在更大数据集上训练更大模型可稳定获得更优结果,且在大规模数据集上用较少训练轮次训练大模型,通常优于小模型。
  • 灵活的架构(如Transformer)在自监督学习中表现更优,因其相比RNN具有更低的归纳偏置和更优的梯度流动。
  • 少样本探针——即通过自然语言提示仅用少量样本指定任务——可在无需微调的情况下实现强性能,尤其在自然语言处理中表现突出。
  • 多模态预训练(如联合音视频对比学习或图文掩码建模)在提升跨领域泛化能力方面展现出巨大潜力。
  • 尽管存在规模扩展,当前模型仍缺乏常识推理和世界知识,表明当前自监督方法存在关键局限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。