[论文解读] Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks
本论文研究使用分层递归网络的神经序列标注器的迁移学习,并提出三种参数共享架构,以实现跨域、跨应用和跨语言迁移,在若干基准数据集上取得改进和新的最先进结果。
Recent papers have shown that neural networks obtain state-of-the-art performance on several different sequence tagging tasks. One appealing property of such systems is their generality, as excellent performance can be achieved with a unified architecture and without task-specific feature engineering. However, it is unclear if such systems can be used for tasks without large amounts of training data. In this paper we explore the problem of transfer learning for neural sequence taggers, where a source task with plentiful annotations (e.g., POS tagging on Penn Treebank) is used to improve performance on a target task with fewer available annotations (e.g., POS tagging for microblogs). We examine the effects of transfer learning for deep hierarchical recurrent networks across domains, applications, and languages, and show that significant improvement can often be obtained. These improvements lead to improvements over the current state-of-the-art on several well-studied tasks.
研究动机与目标
- 研究神经序列标注器是否可以通过在相关任务之间的迁移学习受益。
- 提出一个统一的、参数共享的跨域、跨应用和跨语言迁移框架。
- 评估在语言、领域和应用之间共享不同层/参数对迁移效果的影响。
- 在多个基准数据集上展示相对于基线和最先进方法的改进。
提出的方法
- 一个基本的神经序列标注模型,包含字符级GRU和词级GRU,并输出CRF层。
- 三种迁移架构(T-A、T-B、T-C),在源任务和目标任务之间共享网络参数的不同子集。
- 使用共享参数和任务特定参数的双任务目标进行联合训练;基于梯度的优化,采用AdaGrad。
- 三种任务迁移设置:跨域(并可能有标签映射)、具不相同标签的跨域(T-B)、跨应用,以及通过共享形态学上相似的字符表示实现跨语言迁移(T-C)。
- 训练过程在源任务与目标任务之间交替,更新共享参数和任务特定参数;对目标任务进行提前停止。
实验结果
研究问题
- RQ1在高资源源任务上训练的神经序列标注器是否可以通过迁移学习提升低资源目标任务的性能?
- RQ2在性能与参数共享方面,跨域、跨应用和跨语言迁移有何比较?
- RQ3在模型组件中共享更多与更少对迁移效果的影响是什么?
- RQ4迁移学习模型是否在标准序列标注基准上达到最先进的结果?
主要发现
- 迁移学习在目标任务上的表现始终优于非迁移基线,尤其是在低标注率下。
- 从PTB POS或CoNLL NER到Genia与Twitter的跨域迁移带来显著提升,包括在极少量标注数据下的高准确性。
- 跨应用和跨语言迁移在低资源条件下也带来有意义的改进。
- 这三种架构的性能顺序为:T-A > T-B > T-C,反映了共享参数的多少。
- 该方法在若干基准数据集上取得新的最先进结果,且基础模型在不进行迁移时也具有竞争力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。