Skip to main content
QUICK REVIEW

[论文解读] How Transferable are Neural Networks in NLP Applications?

Lili Mou, Meng Zhao|arXiv (Cornell University)|Mar 19, 2016
Topic Modeling参考文献 23被引用 86
一句话总结

本文通过在六个数据集上对CNN和LSTM-RNN模型进行系统性实验,研究了NLP中神经网络的可迁移性。研究发现,可迁移性在很大程度上取决于源任务与目标任务之间的语义相似性,其中词嵌入可在不同语义间迁移,而输出层则不能。多任务学习和参数初始化的性能相当,联合使用二者并未带来显著增益。

ABSTRACT

Transfer learning is aimed to make use of valuable knowledge in a source domain to help model performance in a target domain. It is particularly important to neural networks, which are very likely to be overfitting. In some fields like image processing, many studies have shown the effectiveness of neural network-based transfer learning. For neural NLP, however, existing studies have only casually applied transfer learning, and conclusions are inconsistent. In this paper, we conduct systematic case studies and provide an illuminating picture on the transferability of neural networks in NLP.

研究动机与目标

  • 系统评估神经网络在NLP应用中的可迁移性,特别是针对先前结果不一致的情况。
  • 探究通过参数初始化(INIT)或多任务学习(MULT)进行迁移学习是否能提升低资源NLP任务的性能。
  • 分析不同任务和架构下,神经网络各层的可迁移性。
  • 确定联合使用INIT与MULT是否能在NLP迁移学习中带来额外性能增益。
  • 为NLP中神经网络可迁移性的有效条件提供实证见解,与计算机视觉中的发现形成对比。

提出的方法

  • 在六个NLP数据集(IMDB、MR、QC、SNLI、SICK和MSRP)上开展实验,涵盖句子分类和句子对分类任务。
  • 采用两种广泛使用的架构:卷积神经网络(CNN)和长短期记忆循环神经网络(LSTM-RNN)。
  • 应用两种迁移方法:(1) INIT——使用源任务的预训练参数初始化目标任务;(2) MULT——通过共享词嵌入和隐藏层,联合训练源任务和目标任务。
  • 对于MULT,引入超参数λ ∈ (0,1)以平衡源任务和目标任务的损失贡献,先以0.1为步长进行调优,再在0.01–0.09范围内以0.02为粒度精细调整。
  • 通过不同λ值下的峰值准确率评估迁移性能,并与非迁移基线进行比较。
  • 通过分析词嵌入、隐藏层和输出层对迁移性能的贡献,评估各层的可迁移性。

实验结果

研究问题

  • RQ1RQ1:在语义相似或不同的两个NLP任务之间,神经网络的可迁移性如何?
  • RQ2RQ2:NLP神经模型中各层(如词嵌入、隐藏层、输出层)的可迁移性如何?
  • RQ3RQ3:INIT与MULT各自的效果如何?联合使用是否能带来额外性能增益?
  • RQ4RQ4:源数据集与目标数据集之间的语义相似性如何影响NLP中的可迁移性?
  • RQ5RQ5:观察到的可迁移模式在不同神经网络架构(CNN与LSTM-RNN)和数据集之间是否一致?

主要发现

  • NLP中的可迁移性在很大程度上取决于源任务与目标任务之间的语义相似性,这与图像处理中跨多样化任务仍具较强可迁移性的情况不同。
  • 词嵌入可在语义不同的任务间迁移,表明其捕捉了通用的语言模式。
  • 输出层具有高度数据集特异性,表现出极低的可迁移性,表明其为特定任务优化,难以复用。
  • 多任务学习(MULT)与参数初始化(INIT)在实验中表现相当,MULT在某些情况下(如SNLI + SICK)略优于INIT,而在其他情况下(如IMDB + MR)则相反。
  • 联合使用INIT与MULT并未带来额外性能增益,因为联合方法的峰值性能始终处于单一方法的性能范围内。
  • 在QC与MSRP的实验中,MULT与INIT均未能超越非迁移基线,证实当任务语义不相似时,迁移无效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。