Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Latent Tree Induction with Deep Inside-Outside Recursive Autoencoders

Andrew Drozdov, Pat Verga|arXiv (Cornell University)|Apr 3, 2019
Natural Language Processing Techniques参考文献 32被引用 26
一句话总结

DIORA 提出了一种完全无监督的深度学习方法,通过深度内部-外部递归自编码器,从原始文本中自动学习句法树结构和成分的分布式表示。通过使用动态规划的自编码目标,在原始文本上训练模型,从每个词的外部上下文重建该词,DIORA 在 WSJ 和 MultiNLI 数据集上的无监督二元句法分析任务中达到最先进性能,F1 分数分别提升了 13.7% 和 11.5%。

ABSTRACT

We introduce deep inside-outside recursive autoencoders (DIORA), a fully-unsupervised method for discovering syntax that simultaneously learns representations for constituents within the induced tree. Our approach predicts each word in an input sentence conditioned on the rest of the sentence and uses inside-outside dynamic programming to consider all possible binary trees over the sentence. At test time the CKY algorithm extracts the highest scoring parse. DIORA achieves a new state-of-the-art F1 in unsupervised binary constituency parsing (unlabeled) in two benchmark datasets, WSJ and MultiNLI.

研究动机与目标

  • 开发一种完全无监督的方法,从原始文本中发现句法结构,而无需使用标注的训练数据。
  • 在所诱导的句法树中学习有意义的分布式表示(例如,名词短语、动词短语)的成分。
  • 在性能上超越依赖监督或复杂后处理的现有方法,提升无监督句法成分分析的性能。
  • 通过仅从原始文本学习,使模型在不同领域和语言之间具备泛化能力。
  • 探索使用内部-外部动态规划的自编码是否能有效捕捉语言中的句法和语义规律。

提出的方法

  • 该模型采用深度内部-外部递归自编码器架构,利用动态规划对句子中所有可能的二叉树进行内部和外部传递。
  • 内部传递递归地使用学习到的组合函数,将子节点的向量表示组合为父节点的表示。
  • 外部传递将父节点的上下文传播到每个子节点,为内部节点表示增添外部结构上下文。
  • 模型通过自编码目标进行训练:从其直接父节点的外部表示中重建输入的每个词,类似于掩码语言建模。
  • 成分之间的兼容性函数通过反向传播端到端学习,推理时使用 CKY 算法提取得分最高的句法树。
  • 该方法完全不依赖任何标注的句法注释,仅依靠原始文本和内部-外部算法进行结构诱导。

实验结果

研究问题

  • RQ1无监督深度学习模型是否能有效从原始文本中发现句法树结构,而无需任何标注的训练数据?
  • RQ2内部-外部动态规划框架是否能有效集成到深度自编码器中,以同时学习树结构和成分表示?
  • RQ3通过从外部上下文重建词语,是否能比现有无监督句法分析方法更有效地实现句法结构诱导?
  • RQ4该模型能否学习到有意义且语义一致的短语表示,并在下游任务(如短语切分)中优于强基线模型?
  • RQ5该模型的性能在不同领域(如新闻语料 WSJ 和自然语言蕴含 MultiNLI 数据)之间有多强的泛化能力?

主要发现

  • 在完整 WSJ 数据集(含标点符号)上,DIORA 达到 85.4 的新 SOTA F1 分数,相比之前无监督方法绝对提升 13.7%。
  • 在 WSJ-40 基准上,DIORA 达到 81.6 的 F1 分数,相比之前 SOTA 绝对提升 11.5%。
  • 在 MultiNLI 数据集上,DIORA 达到 78.2 的 F1 分数,相比之前 SOTA 绝对提升 7.8%。
  • 该模型在段落召回率上优于强基线模型,表明其在诱导的句法树中对成分跨度的覆盖更全面。
  • 所学习的短语表示具有语义意义,并在下游短语切分评估任务中优于强基线模型。
  • 定性分析表明,DIORA 通常能生成与分词后的真实句法树高度一致的句法树,包括对小品词和动词的准确分组。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。