QUICK REVIEW

[论文解读] Encoding Sentences with Graph Convolutional Networks for Semantic Role Labeling

Diego Marcheggiani, Ivan Titov|arXiv (Cornell University)|Mar 14, 2017

Topic Modeling参考文献 39被引用 29

一句话总结

本文提出了一种专为句法依存图设计的新型图卷积网络（GCN）架构，以提升语义角色标注（SRL）性能。通过在双向LSTM之上堆叠GCN层，该模型同时捕捉序列与句法结构，在CoNLL-2009英文和中文数据集上均取得最先进性能，使用集成方法在跨域测试集上达到78.9的F1分数。

ABSTRACT

Semantic role labeling (SRL) is the task of identifying the predicate-argument structure of a sentence. It is typically regarded as an important step in the standard NLP pipeline. As the semantic representations are closely related to syntactic ones, we exploit syntactic information in our model. We propose a version of graph convolutional networks (GCNs), a recent class of neural networks operating on graphs, suited to model syntactic dependency graphs. GCNs over syntactic dependency trees are used as sentence encoders, producing latent feature representations of words in a sentence. We observe that GCN layers are complementary to LSTM ones: when we stack both GCN and LSTM layers, we obtain a substantial improvement over an already state-of-the-art LSTM SRL model, resulting in the best reported scores on the standard benchmark (CoNLL-2009) both for Chinese and English.

研究动机与目标

解决循环网络在词级别有效整合句法结构方面的局限性。
证明图卷积网络（GCNs）可被有效适配以建模自然语言处理中的句法依存图。
通过结合GCNs与双向LSTM，利用互补的建模优势，提升语义角色标注性能。
表明GCN对句法结构的编码能带来稳健性能，即使在解析结果存在噪声时亦然。
建立一种通用框架，将语言学图结构整合到神经序列模型中。

提出的方法

提出一种专为有标签、有向依存图设计的GCN变体，支持在句法树上进行消息传递。
使用多层GCN聚合K跳邻域内节点的信息，捕捉更丰富的句法上下文。
在双向LSTM层之上堆叠GCN层，联合建模序列依赖与句法依赖。
采用归一化图卷积操作，结合自环连接与边特定特征，以建模句法关系。
在GCN与LSTM层之间引入门控机制，动态控制信息流动。
使用交叉熵损失进行端到端训练，并结合CRF解码实现联合论元预测。

实验结果

研究问题

RQ1图卷积网络能否被有效适配以建模自然语言处理任务中的句法依存结构？
RQ2将GCNs与LSTMs结合是否能超越单一模型的性能，实现更优的语义角色标注？
RQ3GCN-based SRL模型对句法解析错误的鲁棒性如何，尤其是在跨域数据上？
RQ4在建模句子语义时，GCNs能否为循环网络提供互补的归纳偏置？
RQ5所提出的GCN架构是否可泛化至其他涉及语言学图结构的NLP任务？

主要发现

GCN-LSTM集成模型在CoNLL-2009跨域测试集上取得78.9的新SOTA F1分数，超越先前的语法感知模型。
该模型在强基线LSTM-only SRL系统基础上实现性能提升，表明GCNs与LSTMs具有互补的建模能力。
即使在句法解析存在噪声的情况下，GCN-based模型仍保持优异性能，表明其对解析错误具有鲁棒性。
该模型优于以往的语法感知方法，如使用句法特征的CRF或基于张量的方法。
消融实验确认，当GCN层堆叠在LSTM之上时，性能显著提升，尤其在捕捉长距离句法依赖方面。
结果表明，GCNs可作为通用工具，用于在神经NLP模型中编码语言学结构，超越SRL任务本身。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。