Skip to main content
QUICK REVIEW

[论文解读] Deconvolutional Paragraph Representation Learning

Yizhe Zhang, Dinghan Shen|arXiv (Cornell University)|Aug 16, 2017
Topic Modeling参考文献 30被引用 65
一句话总结

本文提出一种纯卷积编码器和去卷积解码器来学习段落表示,使长序列重建更加高效,且在不使用递归解码器的情况下实现强大的半监督性能。

ABSTRACT

Learning latent representations from long text sequences is an important first step in many natural language processing applications. Recurrent Neural Networks (RNNs) have become a cornerstone for this challenging task. However, the quality of sentences during RNN-based decoding (reconstruction) decreases with the length of the text. We propose a sequence-to-sequence, purely convolutional and deconvolutional autoencoding framework that is free of the above issue, while also being computationally efficient. The proposed method is simple, easy to implement and can be leveraged as a building block for many applications. We show empirically that compared to RNNs, our framework is better at reconstructing and correcting long paragraphs. Quantitative evaluation on semi-supervised text classification and summarization tasks demonstrate the potential for better utilization of long unlabeled text data.

研究动机与目标

  • 激发学习面向长文本序列的鲁棒段落级表示。
  • 提出一个带多层去卷积解码器的CNN编码器,用于重构输入文本。
  • 表明去除基于RNN的解码可以缓解暴露偏置并改善长段落的重建与效率。
  • 通过将重建与有监督任务联合训练,展示半监督学习的优势。

提出的方法

  • 使用多层CNN编码器从词嵌入生成一个固定维度的潜在向量 h。
  • 用多层去卷积网络对 h 进行解码,以通过基于余弦相似度的概率重构输入的词嵌入。
  • 使用最大似然的基于词级自编码目标进行训练(sum_t log p(w_hat^t = w^t))。
  • 可选地通过引入退火参数 alpha 将重建损失与监督损失联合优化,扩展为半监督学习。
  • 将基于步幅的卷积/去卷积与基于池化的方法在效率与并行性方面进行比较。
  • 讨论去卷积解码器与RNN解码器在建模依赖关系和长程结构方面的差异。

实验结果

研究问题

  • RQ1纯卷积编码器与去卷积解码器是否能够准确重构长段落?
  • RQ2去除自回归解码是否有助于缓解暴露偏置并改善长序列表示?
  • RQ3相比基于RNN的自编码器,所学表示是否有助于半监督分类和摘要任务?

主要发现

模型BLEUROUGE-1ROUGE-2
LSTM-LSTM [ 47 ]24.157.130.2
Hier. LSTM-LSTM [ 47 ]26.759.033.0
Hier. + att. LSTM-LSTM [ 47 ]28.562.435.5
CNN-LSTM18.356.628.2
CNN-DCNN94.297.094.2
  • CNN-DCNN 在长段落重建质量上优于基于LSTM的解码器。
  • 随着段落长度增加,CNN-DCNN 的重建性能保持稳定,而基于LSTM的解码器退化。
  • 在标准GPU上,CNN-DCNN 的训练和推理显著快于基于RNN的自编码器。
  • 在去噪和拼写纠错任务中,CNN-DCNN 实现了更低的错误率和更快的收敛速度,相较于LSTM-based解码器。
  • 与CNN-DCNN的联合半监督训练在多个数据集上提升了文档分类,并提升了 arXiv 数据的摘要性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。