Skip to main content
QUICK REVIEW

[论文解读] Tree-structured composition in neural networks without tree-structured architectures

Samuel R. Bowman, Christopher D. Manning|arXiv (Cornell University)|Jun 16, 2015
Topic Modeling参考文献 16被引用 40
一句话总结

本文研究了循环神经网络(LSTMs)是否能在缺乏显式树状结构架构的情况下,隐式学习并利用句子中的递归句法结构。通过使用具有受控递归逻辑表达式的人工数据集,作者发现,尽管LSTMs能够泛化到未见过的复杂结构,但在数据稀缺的情况下,树状结构模型在准确率和样本效率方面始终优于LSTMs。关键贡献在于实证证据表明,序列模型能够学习组合结构,但由于架构归纳偏置的存在,树模型在性能上仍更占优势。

ABSTRACT

Tree-structured neural networks encode a particular tree geometry for a sentence in the network design. However, these models have at best only slightly outperformed simpler sequence-based models. We hypothesize that neural sequence models like LSTMs are in fact able to discover and implicitly use recursive compositional structure, at least for tasks with clear cues to that structure in the data. We demonstrate this possibility using an artificial data task for which recursive compositional structure is crucial, and find an LSTM-based sequence model can indeed learn to exploit the underlying tree structure. However, its performance consistently lags behind that of tree models, even on large training sets, suggesting that tree-structured models are more effective at exploiting recursive structure.

研究动机与目标

  • 研究标准的基于序列的模型(如LSTMs)是否能在缺乏显式树架构的情况下,隐式学习并利用句子中的递归句法结构。
  • 比较基于LSTM的序列模型与树状结构神经网络在需要递归组合的任务上的泛化性能。
  • 确定树模型优越性能的原因是否源于架构归纳偏置,或序列模型的数据限制。
  • 评估训练数据量对序列模型泛化到未见递归结构能力的影响。
  • 评估在学习组合句法表示时,架构偏置(树模型)与训练灵活性(序列模型)之间的权衡。

提出的方法

  • 作者基于具有递归嵌套操作符(如'and'、'or'、'not')的逻辑表达式构建人工数据集,每个句子是一个具有树状语法的逻辑公式。
  • 每个句子以带括号的字符串形式表示(例如:'(not (p2 and p6))'),以显式呈现递归结构,使序列模型能够从句法线索中学习。
  • 在不同大小的训练集(最大深度为3、4或6)上训练三个树状结构模型和一个单层LSTM,并在更长、更深的结构上进行测试。
  • 使用小批量随机梯度下降、AdaDelta优化器和L2正则化进行训练,优化目标为负对数似然分类,共训练100个周期。
  • 通过在训练中未见的最大操作符数量不断增加的句子对上进行测试,评估泛化能力。
  • 通过按结构复杂度分组的测试准确率来衡量性能,并在不同训练集大小和模型类型之间进行比较。

实验结果

研究问题

  • RQ1基于LSTM的序列模型是否能在缺乏显式树架构的情况下,学习并利用句子中的递归句法结构?
  • RQ2在未见的、更深的递归结构上,序列模型的泛化性能与树状结构模型相比如何?
  • RQ3增加训练数据量在多大程度上能提升序列模型泛化到复杂递归结构的能力?
  • RQ4树模型的架构归纳偏置是否导致其在学习递归组合方面比序列模型更高效?
  • RQ5当提供显著更多的训练数据时,序列模型能否达到与树模型相当的性能?

主要发现

  • LSTM模型能够泛化到未见的递归结构,在训练数据最大深度为6的条件下,对最多含4个操作符的测试集达到94.8%的准确率,但在更深结构上性能急剧下降。
  • 在所有设置中,树状结构模型均优于LSTM,最佳树模型在相同训练集上达到98.9%的准确率,表明在最困难的测试分组中存在4.1%的性能差距。
  • LSTM在第4组到第5组之间(深度5)的性能下降了10%,而表现最好的其他模型仅下降4.4%,表明其泛化能力下降更显著。
  • 将训练集扩大至包含最大深度为6的结构后,LSTM的性能下降减少至3%,并优于在深度≤3的结构上训练的最佳树模型。
  • 学习曲线表明,增加数据无法弥合LSTM与树模型之间的性能差距,表明架构偏置起着关键作用。
  • 尽管样本效率较低,LSTM仍能隐式学习递归结构,如其在充分训练后能平滑泛化到未见深度的结构所示。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。