[论文解读] Top2Vec: Distributed Representations of Topics
Top2Vec 通过将文档和词语同时嵌入到语义空间,使用 doc2vec 和 word2vec,发现主题数量自动并产生比传统模型如 LDA 和 PLSA 更具信息量的主题向量。
Topic modeling is used for discovering latent semantic structure, usually referred to as topics, in a large collection of documents. The most widely used methods are Latent Dirichlet Allocation and Probabilistic Latent Semantic Analysis. Despite their popularity they have several weaknesses. In order to achieve optimal results they often require the number of topics to be known, custom stop-word lists, stemming, and lemmatization. Additionally these methods rely on bag-of-words representation of documents which ignore the ordering and semantics of words. Distributed representations of documents and words have gained popularity due to their ability to capture semantics of words and documents. We present $ exttt{top2vec}$, which leverages joint document and word semantic embedding to find $ extit{topic vectors}$. This model does not require stop-word lists, stemming or lemmatization, and it automatically finds the number of topics. The resulting topic vectors are jointly embedded with the document and word vectors with distance between them representing semantic similarity. Our experiments demonstrate that $ exttt{top2vec}$ finds topics which are significantly more informative and representative of the corpus trained on than probabilistic generative models.
研究动机与目标
- 将主题建模作为一种可扩展的方式,用于在没有预定义主题数量的情况下总结大型文本语料。
- 利用分布式表示创建一个连续的语义空间,使主题、文档和单词向量反映语义相似性。
- 通过语义空间中的密度聚类自动确定主题数量。
- 将主题向量作为密集文档簇的质心,并提取代表性单词作为最近邻。
- 通过将较小的主题合并到语义相近的较大主题,实现分层主题的降维/简化。
提出的方法
- 通过训练 doc2vec (DBOW) 和 word2vec 来创建一个联合语义空间,在同一空间获得文档和词向量。
- 通过在降维后的文档向量(UMAP)的密集区域,使用 HDBSCAN 将主题表示为密集的文档向量区域。
- 在原始嵌入空间中,将每个密集文档簇的质心计算为主题向量。
- 在语义空间中,将主题向量最近邻的单词向量识别为主题词。
- 不依赖停用词表或预定义的主题数量;允许通过空间中的簇密度和距离来揭示主题。
- 可选择通过将较小的主题合并到语义上相近的主题来分层地减少主题数量。
实验结果
研究问题
- RQ1如何构建一个连续的语义空间,以联合表示文档和单词以进行主题发现?
- RQ2是否可以在不预定义数量的情况下,从语义空间中密集区域自动推断主题数量?
- RQ3从密集文档簇得到的主题向量是否比传统的 LDA/PLSA 主题更具信息性和代表性?
- RQ4如何量化主题规模,以及如何执行分层主题降维?
主要发现
- Top2Vec 找到的主题比 LDA 和 PLSA 找到的主题在信息量和对语料库的代表性方面更强(摘录中的说法)。
- 该模型在学习有意义的主题时不需要去停用词、词干提取或词性还原。
- 主题是通过对降维后的文档向量(UMAP)进行密度聚类(HDBSCAN)自动发现的。
- 主题词只是主题向量在语义空间中最近的词向量,避免依赖高概率但无信息的词语。
- 主题大小对应分配给每个密集簇的文档数量,通过将较小的主题合并到最近邻来实现分层降维。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。