Skip to main content
QUICK REVIEW

[论文解读] Distributed Representations of Sentences and Documents

Quoc V. Le, Tomáš Mikolov|arXiv (Cornell University)|May 16, 2014
Topic Modeling参考文献 41被引用 5,112
一句话总结

本文介绍 Paragraph Vector (PV),通过预测周围词来学习可变长度文本(句子、段落、文档)的固定长度、密集表征;相比词袋模型取得改进,并在情感分析和文本分类等任务达到最先进的结果。文中提出两种模型(PV-DM 和 PV-DBOW)、它们的组合,以及在情感分析与信息检索任务上的实验。

ABSTRACT

Many machine learning algorithms require the input to be represented as a fixed-length feature vector. When it comes to texts, one of the most common fixed-length features is bag-of-words. Despite their popularity, bag-of-words features have two major weaknesses: they lose the ordering of the words and they also ignore semantics of the words. For example, "powerful," "strong" and "Paris" are equally distant. In this paper, we propose Paragraph Vector, an unsupervised algorithm that learns fixed-length feature representations from variable-length pieces of texts, such as sentences, paragraphs, and documents. Our algorithm represents each document by a dense vector which is trained to predict words in the document. Its construction gives our algorithm the potential to overcome the weaknesses of bag-of-words models. Empirical results show that Paragraph Vectors outperform bag-of-words models as well as other techniques for text representations. Finally, we achieve new state-of-the-art results on several text classification and sentiment analysis tasks.

研究动机与目标

  • 克服忽略词序和语义的词袋表示的局限性。
  • 开发无监督的、固定长度的向量表示,用于可变长度的文本(从句子到文档)。
  • 引入两种 paragraph-vector 框架(PV-DM 和 PV-DBOW),并研究它们的组合。
  • 展示在情感分析和文本分类上的改进,并展示在信息检索中的应用性。

提出的方法

  • 两种主要模型:PV-DM (Distributed Memory) 将段落向量与上下文词向量连接,以预测下一个词;PV-DBOW (Distributed Bag of Words) 从段落向量预测单词,而不依赖上下文词。
  • 段落向量 D(用于段落)和 W(用于单词)通过带回传播的随机梯度下降学习;预测使用 softmax(通常通过带 Huffman 树的分层 softmax 实现)。
  • 新段落的推断固定 W 和 U,b,通过梯度下降优化新的段落向量 D。
  • 模型通过拼接方式将 PV-DM 和 PV-DBOW 结合,以在各任务中实现稳健性能。
  • 两阶段训练:(1) 在已见段落上训练以学习 W、U,b、D;(2) 测试时通过更新 D 推断新文本的段落向量,同时固定其他参数。
  • 实验将 PV 与 BoW、n-gram 以及更复杂的模型进行比较,显示出显著的改进。

实验结果

研究问题

  • RQ1无监督的段落级向量是否能够捕捉可变长度文本的语义和词序?
  • RQ2PV-DM 和 PV-DBOW 是否在情感分析和信息检索任务中优于传统的词袋模型与词向量平均?
  • RQ3将 PV-DM 与 PV-DBOW 结合对各任务性能的影响如何?
  • RQ4与句子级模型相比,PV 在长文档(如 IMDB)上的表现如何?

主要发现

  • PV 在情感分析和分类任务上优于词袋和其他基线。
  • 在 Stanford Sentiment Treebank 上,Paragraph Vector 在粗粒度上达到 12.2% 的错误率,在细粒度上达到 51.3%,超过基于递归的模型和词袋变体。
  • 在 IMDB 上,Paragraph Vector 实现 7.42% 的错误率,超过先前的最佳结果,且在长文档上展现出强劲表现。
  • PV-DM 通常优于 PV-DBOW,且将 PV-DM 与 PV-DBOW 拼接在一起可在各任务上获得更一致的结果。
  • PV 的训练成本较高,但在测试时支持并行化;窗口大小(5–12)是一个有用的超参数范围。
  • 在信息检索任务中,Paragraph Vector 实现 3.82% 的错误率,显著优于词袋和 n-gram 基线。
  • 在各任务中,推荐结合 PV-DM 和 PV-DBOW 以获得稳健的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。