Skip to main content
QUICK REVIEW

[论文解读] Learning Approximate Inference Networks for Structured Prediction

Lifu Tu, Kevin Gimpel|arXiv (Cornell University)|Feb 15, 2018
Topic Modeling被引用 27
一句话总结

本文提出训练一个神经网络以近似结构化预测中的结构化argmax推理,用可微分的推理网络替代梯度下降。通过联合训练能量函数与推理网络并使用大间隔准则,该方法在多标签分类和序列标注任务上实现了比以往方法快10–60倍的推理速度,同时提升了准确率,并实现了CRF和语言模型增强模型中的快速推理。

ABSTRACT

Structured prediction energy networks (SPENs; Belanger & McCallum 2016) use neural architectures to define energy functions that can capture arbitrary dependencies among parts of structured outputs. Prior work used gradient descent for inference, relaxing the structured output to a set of continuous variables and then optimizing the energy with respect to them. We replace this use of gradient descent with a neural trained to approximate structured argmax inference. This network outputs continuous values that we treat as the output structure. We develop large-margin training criteria for joint training of the structured energy function and inference network. On multi-label classification we report speed-ups of 10-60x compared to (Belanger et al, 2017) while also improving accuracy. For sequence labeling with simple structured energies, our approach performs comparably to exact inference while being much faster at test time. We then demonstrate improved accuracy by augmenting the energy with a language model that scores entire output label sequences, showing it can improve handling of long-distance dependencies in part-of-speech tagging. Finally, we show how inference networks can replace dynamic programming for test-time inference in conditional random fields, suggestive for their general use for fast inference in structured settings.

研究动机与目标

  • 通过用神经推理网络替代迭代优化,解决基于梯度的推理在结构化预测中的计算瓶颈。
  • 使用大间隔准则实现结构化能量函数与推理网络的端到端训练,以提升泛化能力。
  • 在不牺牲准确率的前提下,加速CRF和序列模型等结构化模型的测试时推理。
  • 通过将语言模型整合到能量函数中,改善对结构化输出中长距离依赖关系的建模。

提出的方法

  • 训练一个神经网络,通过近似结构化能量函数上的argmax推理,直接预测结构化输出。
  • 定义一种可微分的联合训练目标,使用大间隔准则对能量函数和推理网络进行正则化。
  • 使用反向传播联合优化能量网络和推理网络的参数。
  • 在CRF的测试时预测中,用学习到的推理网络替代动态规划。
  • 通过在能量函数中引入语言模型来对整个标签序列进行打分,提升长距离依赖关系的建模能力。
  • 将推理网络的输出视为连续值,随后进行离散化以形成最终的结构化预测。

实验结果

研究问题

  • RQ1是否可以训练一个神经网络,使其在效率上优于基于梯度下降的结构化argmax推理?
  • RQ2联合训练能量函数与推理网络是否能同时提升准确率与推理速度?
  • RQ3学习到的推理网络是否能有效替代CRF中的动态规划,实现更快的测试时推理?
  • RQ4将语言模型集成到能量函数中,对具有长距离依赖关系的任务性能提升效果如何?
  • RQ5用神经近似替代精确推理时,速度与准确率之间的权衡关系如何?

主要发现

  • 所提方法在多标签分类基准上实现了比以往基于梯度的推理方法快10–60倍的推理速度,同时提升了准确率。
  • 对于使用简单结构化能量的序列标注任务,该方法在准确率上与精确推理相当,但测试时运行速度显著更快。
  • 在能量函数中引入语言模型可提升依存句法标注任务的性能,尤其在捕捉长距离依赖关系方面表现更优。
  • 推理网络成功替代了CRF中的动态规划,实现了快速且可扩展的测试时推理。
  • 采用大间隔准则进行联合训练可提升泛化能力,从而改善结构化预测性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。