Skip to main content
QUICK REVIEW

[论文解读] Order Matters: Sequence to sequence for sets

Oriol Vinyals, Samy Bengio|arXiv (Cornell University)|Nov 19, 2015
Natural Language Processing Techniques参考文献 18被引用 184
一句话总结

本文提出了一种序列到序列框架的扩展,通过证明元素顺序对模型性能有显著影响,从而处理输入和输出中的无序集合。该方法引入一种在优化过程中搜索可能顺序的训练策略,使模型即使在输入或输出本质上无序的情况下也能学习到最优序列,从而在排序、语言建模和解析任务中实现最先进性能,提升了困惑度和泛化能力。

ABSTRACT

Sequences have become first class citizens in supervised learning thanks to the resurgence of recurrent neural networks. Many complex tasks that require mapping from or to a sequence of observations can now be formulated with the sequence-to-sequence (seq2seq) framework which employs the chain rule to efficiently represent the joint probability of sequences. In many cases, however, variable sized inputs and/or outputs might not be naturally expressed as sequences. For instance, it is not clear how to input a set of numbers into a model where the task is to sort them; similarly, we do not know how to organize outputs when they correspond to random variables and the task is to model their unknown joint probability. In this paper, we first show using various examples that the order in which we organize input and/or output data matters significantly when learning an underlying model. We then discuss an extension of the seq2seq framework that goes beyond sequences and handles input sets in a principled way. In addition, we propose a loss which, by searching over possible orders during training, deals with the lack of structure of output sets. We show empirical evidence of our claims regarding ordering, and on the modifications to the seq2seq framework on benchmark language modeling and parsing tasks, as well as two artificial tasks -- sorting numbers and estimating the joint probability of unknown graphical models.

研究动机与目标

  • 探究当数据本质上无序(如数字或单词的集合)时,输入或输出元素的顺序是否显著影响模型性能。
  • 开发一种序列到序列框架的合理扩展,以有效处理无序的输入和输出集合。
  • 提出一种训练算法,在优化过程中搜索可能的顺序,以找到集合的最佳序列表示。
  • 通过人工任务(排序、联合概率估计)和真实世界任务(语言建模、解析)的实证验证,证明该框架在性能上优于简单排序基线。

提出的方法

  • 通过使用‘读取-处理-写入’架构,将标准序列到序列框架扩展为可处理无序输入集合,该架构可按任意顺序处理元素。
  • 针对无序输出,提出一种可微分损失函数,训练期间在所有可能的输出元素排列中进行搜索,以最大化似然性。
  • 采用基于采样的方法近似搜索所有 n! 种排列,将复杂度从 O(n!) 降低到 O(1),同时保持性能。
  • 采用编码器-解码器 LSTM 架构,其中编码器以任意顺序读取输入元素,解码器基于编码状态生成输出序列。
  • 应用链式法则分解输出序列的联合概率,即使原始数据无序,也能实现自回归生成。
  • 引入一种训练目标,通过选择使 log P(Y_π | X) 最大的排列 π 来优化排列,利用梯度更新强化该选择。

实验结果

研究问题

  • RQ1无序输入或输出数据的顺序选择是否显著影响序列到序列模型的性能?
  • RQ2当不存在自然顺序时,深度学习模型能否自动发现集合中元素的更优排列?
  • RQ3如何以合理方式将序列到序列框架扩展为处理无序输入和输出集合?
  • RQ4何种训练策略可实现在不进行穷举搜索的情况下,对集合元素排列进行有效优化?
  • RQ5当数据并非天然有序时,该方法能否在真实世界任务(如语言建模和解析)中实现泛化?

主要发现

  • 输入和输出元素的顺序显著影响模型性能,次优顺序会导致困惑度升高和泛化能力下降。
  • 在 5-gram 语言建模任务中,模型在经过排列搜索训练后成功恢复了自然顺序 (1,2,3,4,5),验证困惑度达到 225。
  • 当在全部 120 种排列(5!)上进行训练时,模型仍收敛至最优顺序如 (1,2,3,4,5) 或 (5,4,3,2,1),困惑度保持在 225,表明对任意输入顺序具有鲁棒性。
  • 基于采样的搜索策略将计算复杂度从 O(n!) 降低至 O(1),同时在收敛速度和稳定性上优于精确搜索。
  • 在人工任务(如数字排序和未知图模型的联合概率估计)中,模型实现了高准确率,证实了该框架在非序列数据上的有效性。
  • 在解析和语言建模任务中,即使输入或输出本质上无序,该方法仍优于朴素的序列到序列基线模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。