Skip to main content
QUICK REVIEW

[论文解读] Information Aggregation via Dynamic Routing for Sequence Encoding

Jingjing Gong, Xipeng Qiu|arXiv (Cornell University)|Jun 5, 2018
Text and Document Classification Technologies被引用 44
一句话总结

本文提出基于动态路由的聚合(DR-AGG)机制,将可变长度的序列编码压缩为固定大小的向量,在五个数据集上相较于池化和自注意力提高文本分类性能。它提出标准路由策略和反向路由策略,并在文档级和句子级任务上展示出更高的准确性。

ABSTRACT

While much progress has been made in how to encode a text sequence into a sequence of vectors, less attention has been paid to how to aggregate these preceding vectors (outputs of RNN/CNN) into fixed-size encoding vector. Usually, a simple max or average pooling is used, which is a bottom-up and passive way of aggregation and lack of guidance by task information. In this paper, we propose an aggregation mechanism to obtain a fixed-size encoding with a dynamic routing policy. The dynamic routing policy is dynamically deciding that what and how much information need be transferred from each word to the final encoding of the text sequence. Following the work of Capsule Network, we design two dynamic routing policies to aggregate the outputs of RNN/CNN encoding layer into a final encoding vector. Compared to the other aggregation methods, dynamic routing can refine the messages according to the state of final encoding vector. Experimental results on five text classification tasks show that our method outperforms other aggregating models by a significant margin. Related source code is released on our github page.

研究动机与目标

  • 提高并改进将单词级编码聚合成固定大小文本表示的方法。
  • 提出受 Capsule Networks 启发的动态路由聚合机制。
  • 在标准与反向策略下比较动态路由与池化和自注意力的效果。
  • 通过层次路由实现对长文本的可扩展性并在多数据集上验证。

提出的方法

  • 用 BiLSTM 编码单词以获得短语级表示。
  • 引入动态路由(DR-AGG)以将信息从输入胶囊传递到输出胶囊。
  • 通过 c_{ij} f(h_i, θ_j) 计算消息 m_{i→j},并对输出胶囊 v_j 应用 squash 非线性更新。
  • 使用 v_j 与 f(h_i, θ_j) 的一致性迭代细化路由系数 c_{ij}。
  • 将输出胶囊串联以形成用于预测的固定大小编码 e。
  • 探索一种反向 DR-AGG,其中输出胶囊引导从输入胶囊接收信息。
  • 采用层次化动态路由以通过在单词和句子层级进行路由来处理长文档。

实验结果

研究问题

  • RQ1如何有效地将变长的单词编码聚合成固定长度的序列表示?
  • RQ2在文本分类中,动态路由策略是否比池化或自注意力更有利于信息传递?
  • RQ3标准与反向动态路由对性能有何影响?
  • RQ4层次化 DR-AGG 是否能在不牺牲准确性的前提下有效扩展到长文档?

主要发现

模型Yelp-2013Yelp-2014IMDBSST-1SST-2
最大池化61.161.241.148.087.0
平均池化60.760.639.146.285.2
自注意力61.061.543.348.286.4
标准 DR-AGG62.163.045.150.587.6
逆向 DR-AGG61.662.544.549.387.2
  • DR-AGG 在五个数据集上优于最大池化、平均池化和自注意力。
  • 在文档级数据集 Yelp-2013、Yelp-2014 和 IMDB 上,DR-AGG 相较于已有最佳模型分别提升了 2.5%、3.0% 和 1.6%。
  • 在 SST-1 和 SST-2 上,DR-AGG 也取得了优于基线的结果。
  • 标准 DR-AGG 通常优于逆向 DR-AGG,表明从输入到输出的信息路由效果良好。
  • 大约 3 次路由迭代在各种胶囊配置下达到峰值性能。
  • 可视化显示不同的胶囊对不同句子方面进行专门化,减少信息冗余。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。