QUICK REVIEW

[论文解读] A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks

Kazuma Hashimoto, Caiming Xiong|arXiv (Cornell University)|Nov 5, 2016

Topic Modeling参考文献 40被引用 52

一句话总结

该论文提出了一种联合多任务（JMT）模型，通过将多个自然语言处理任务——词性标注、短语切分、依存句法分析、语义相关性以及文本蕴涵——按深度递增的方式堆叠，利用从低层到高层的跳跃连接来利用语言层次结构，训练单一深度神经网络以执行多项NLP任务。该模型采用自适应正则化和渐进式深度增长策略，以防止灾难性干扰，从而在所有五个任务上均取得了最先进或具有竞争力的性能表现。

ABSTRACT

Transfer and multi-task learning have traditionally focused on either a single source-target pair or very few, similar tasks. Ideally, the linguistic levels of morphology, syntax and semantics would benefit each other by being trained in a single model. We introduce a joint many-task model together with a strategy for successively growing its depth to solve increasingly complex tasks. Higher layers include shortcut connections to lower-level task predictions to reflect linguistic hierarchies. We use a simple regularization term to allow for optimizing all model weights to improve one task's loss without exhibiting catastrophic interference of the other tasks. Our single end-to-end model obtains state-of-the-art or competitive results on five different tasks from tagging, parsing, relatedness, and entailment tasks.

研究动机与目标

为解决传统多任务学习通常仅聚焦于少数或相似任务的局限性，通过使单一模型能够联合学习多个多样化的自然语言处理任务。
通过引入一种正则化策略，使单个任务的优化不损害其他任务的性能，从而克服多个自然语言处理任务联合训练过程中的灾难性干扰。
通过构建逐层加深的网络结构，利用语言层次结构——即低层级任务（如词性标注）为高层级任务（如依存句法分析、蕴涵判断）提供信息——来实现任务间的层级依赖。
证明将任务置于不同深度而非同一层，能够通过捕捉层次化的语言依赖关系来提升性能。

提出的方法

该模型采用深层双向LSTM架构，为日益复杂的任务逐层增加深度：词性标注（第1层）、短语切分（第2层）、依存句法分析（第3层）、语义相关性（第4层）和文本蕴涵（第5层）。
每个词通过预训练词嵌入与字符n-gram嵌入的拼接表示，其中字符n-gram通过Skip-gram学习，并取平均以形成词级别的字符表示。
将低层级预测结果（如词性标签）嵌入为加权标签嵌入，并作为辅助输入送入高层，以保持语言层次结构并提升泛化能力。
在高层中使用来自低层隐藏状态和预测结果的跳跃连接，以保留并传播低层级语言特征。
在训练过程中应用正则化项，使单个任务损失的优化不会损害其他任务的性能，从而缓解灾难性干扰。
采用课程学习策略进行端到端训练，任务按语言复杂度的固定顺序进行训练，并对所有任务统一应用学习率衰减。

实验结果

研究问题

RQ1单一深度神经网络能否在避免灾难性干扰的前提下，联合学习多个多样化的自然语言处理任务？
RQ2将任务按深度递增的层次结构组织——即低层级预测结果为高层级任务提供信息——是否相比在相同层训练任务能提升性能？
RQ3使用低层级预测结果的加权标签嵌入在增强高层级任务性能方面有多有效？
RQ4渐进式深度增长与正则化在提升数据规模和复杂度各异的任务之间的多任务泛化能力方面，其效果如何？
RQ5在训练数据规模差异巨大的任务联合训练中（例如，依存句法分析仅39k句，而蕴涵任务仅4.5k句对），是否仍能在所有任务上取得优异性能？

主要发现

JMT模型在短语切分任务上达到最先进性能（F1值95.65%），在依存句法分析任务上达到最先进性能（UAS值94.12%），在语义相关性和文本蕴涵任务上也取得具有竞争力的结果。
该模型在词性标注任务上达到97.52%的准确率，当不使用预训练的字符n-gram嵌入时，准确率下降至97.38%，表明形态特征的重要性。
训练过程中随机调整任务顺序会导致语义任务性能显著下降，证实固定层次顺序对模型有效性至关重要。
使用与JMT相同深度的多层双向LSTM单独处理单个任务，并未优于联合模型，表明联合学习比单纯增加模型深度更有效。
联合使用词嵌入与字符n-gram嵌入可提升所有任务的性能，其中在词性标注和短语切分任务上增益最大。
当先以相关性任务进行训练时，模型在语义任务（相关性与蕴涵）上的性能有所提升，支持了共享语义表征的假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。