Skip to main content
QUICK REVIEW

[论文解读] Semantic Tagging with Deep Residual Networks

Johannes Bjerva, Barbara Plank|arXiv (Cornell University)|Sep 22, 2016
Natural Language Processing Techniques参考文献 39被引用 62
一句话总结

本文提出了一项新颖的多语言语义标注任务(sem-tagging),采用结合词表示与字符表示的深度残差网络(ResNets)进行多语言语义解析。所提出的ResNet模型显著优于先前方法,在使用语义标签作为辅助损失时,于英语Universal Dependencies POS标注任务上取得了最先进结果(准确率分别为95.71%和95.67%)。

ABSTRACT

We propose a novel semantic tagging task, sem-tagging, tailored for the purpose of multilingual semantic parsing, and present the first tagger using deep residual networks (ResNets). Our tagger uses both word and character representations and includes a novel residual bypass architecture. We evaluate the tagset both intrinsically on the new task of semantic tagging, as well as on Part-of-Speech (POS) tagging. Our system, consisting of a ResNet and an auxiliary loss function predicting our semantic tags, significantly outperforms prior results on English Universal Dependencies POS tagging (95.71% accuracy on UD v1.2 and 95.67% accuracy on UD v1.3).

研究动机与目标

  • 开发一种可在多种语言间泛化的新型语义标签集,捕捉传统POS标签之外的细粒度语义差异。
  • 探究深度残差网络是否能在语义标注任务上超越标准CNN和RNN。
  • 评估语义标签是否能提升下游NLP任务(尤其是POS标注)的性能。
  • 探索字符级表示在低资源及多语言设置下的有效性。

提出的方法

  • 提出一种包含13个粗粒度类别和75个细粒度类别的新型语义标签集,涵盖量化、否定、情态及指示代词等语义现象。
  • 采用带有残差跳跃连接的深度残差网络(ResNet),以支持更深网络结构的训练并改善梯度流动。
  • 同时使用词级与字符级表示,其中字符嵌入经一维卷积层处理后,再通过残差块进行编码。
  • 在训练过程中引入辅助损失,同时预测语义标签与主任务POS标注目标,以增强特征学习。
  • 使用预训练的Polyglot词嵌入初始化词向量,并与随机初始化进行性能对比。
  • 在Universal Dependencies数据集上,对内在语义标注任务与外在POS标注任务进行模型评估。

实验结果

研究问题

  • RQ1深度残差网络是否能在新型语义标注任务上显著超越标准CNN和RNN?
  • RQ2作为辅助信号的语义标签是否能提升下游POS标注任务的性能?
  • RQ3字符级表示在孤立情况下对语义标注任务(尤其在多语言设置下)是否有效?
  • RQ4所提出的语义标签集是否比传统POS标签对下游NLP任务更具信息量?

主要发现

  • 结合词表示与字符表示的ResNet模型在语义标注任务中表现最佳,显著优于基线CNN和双向LSTM模型(在银标准数据上p < 0.01,在黄金标准数据上p < 0.0025)。
  • 仅使用字符表示的ResNet模型表现极为出色,优于双向LSTM和TNT基线模型,尤其在多语言与低资源设置下具有巨大潜力。
  • 引入基于语义标签的辅助损失可提升POS标注准确率,使UD v1.2(95.71%)和v1.3(95.67%)的性能达到最先进水平,超越双向LSTM基线。
  • 预训练词嵌入对POS标注的性能提升显著(接近3个百分点),但对语义标注的提升微乎其微(仅增加0.04%)。
  • 与标准CNN相比,ResNet模型表现出更低的过拟合倾向,表现为黄金数据与银标准数据之间的性能差距更小。
  • 该语义标签集有效捕捉了POS标签未体现的语义差异,如量化(every 与 some)和指示代词距离(近指与远指),并提升了下游POS标注任务的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。