[论文解读] Meta Multi-Task Learning for Sequence Modeling
本文提出了一种用于序列建模的元多任务学习框架,通过共享的元网络动态生成特定于任务的组合函数参数,实现在任务间的函数级知识共享。该方法通过引入上下文相关且任务相关的组合函数,提升了文本分类和序列标注任务的性能,实证结果表明其在基线模型上持续取得性能提升,并展现出向新任务迁移的强大能力。
Semantic composition functions have been playing a pivotal role in neural representation learning of text sequences. In spite of their success, most existing models suffer from the underfitting problem: they use the same shared compositional function on all the positions in the sequence, thereby lacking expressive power due to incapacity to capture the richness of compositionality. Besides, the composition functions of different tasks are independent and learned from scratch. In this paper, we propose a new sharing scheme of composition function across multiple tasks. Specifically, we use a shared meta-network to capture the meta-knowledge of semantic composition and generate the parameters of the task-specific semantic composition models. We conduct extensive experiments on two types of tasks, text classification and sequence tagging, which demonstrate the benefits of our approach. Besides, we show that the shared meta-knowledge learned by our proposed model can be regarded as off-the-shelf knowledge and easily transferred to new tasks.
研究动机与目标
- 解决现有序列模型在所有序列位置使用单一共享组合函数所导致的欠拟合问题。
- 通过学习语义组合的共享元知识,实现在多个自然语言处理任务间的知识共享。
- 设计一种函数级共享机制,生成特定于任务和位置的组合函数,提升模型表达能力。
- 通过将学习到的元网络作为可重用先验知识,实现高效迁移学习。
- 在文本分类和序列标注任务上验证所提方法的有效性。
提出的方法
- 训练一个元网络(Meta-LSTM)以基于当前上下文生成特定于任务的组合函数参数。
- 元网络捕获多个任务间语义组合的元知识,实现动态参数生成。
- 基础网络(LSTM)使用由元网络生成的上下文相关参数,使组合函数同时具备任务特异性和位置特异性。
- 模型通过反向传播进行端到端训练,采用低秩近似以降低参数复杂度,同时保持表达能力。
- 序列标注任务使用条件随机场(CRF)作为输出层。
- 该框架支持单任务和多任务学习,共享的元知识可提升各任务的性能。
实验结果
研究问题
- RQ1共享的元网络能否有效捕获并跨多个自然语言处理任务迁移语义组合的元知识?
- RQ2与特征级共享相比,通过元网络生成特定于任务的组合函数参数的函数级共享是否能提升模型性能?
- RQ3学习到的元网络能否作为先验知识,用于新未见任务的高效迁移学习?
- RQ4在准确率和参数效率方面,该方法与现有多任务学习基线相比表现如何?
- RQ5上下文相关参数生成在多大程度上增强了模型捕捉序列中复杂语义组合的能力?
主要发现
- Meta-LSTM 模型在 CoNLL2000 分块任务上达到 95.11% 的准确率,优于最佳基线模型(LSTM-SSP-MTL+CRF 的 94.32%)。
- 在 CoNLL2003 NER 任务上,Meta-LSTM-MTL+CRF 模型达到 90.72% 的 F1 分数,超过单任务 Meta-LSTM(90.08%)及其他基线模型。
- 该模型在 WSJ POS 标注任务上的准确率达到 97.45%,超过单任务 Meta-LSTM(97.30%)及其他所有对比模型。
- 所提出的函数级共享机制显著优于特征级共享方法(如 SSP-MTL 和 PSP-MTL),即使参数量更少。
- 从多个任务中学习到的元网络可直接作为先验知识迁移到新任务,展现出强大的迁移能力和泛化性能。
- 该模型在文本分类和序列标注任务上的性能提升均具有一致性,验证了其鲁棒性和广泛适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。