QUICK REVIEW

[论文解读] Hierarchical Optimal Transport for Document Representation

Mikhail Yurochkin, Sebastian Claici|arXiv (Cornell University)|Jun 26, 2019

Music and Audio Processing参考文献 31被引用 35

一句话总结

引入分层最优传输（HOTT）用于通过将文档建模为主题分布（主题是对单词的分布）来衡量文档相似性，并在主题空间上使用以 WMD 作为地面度量的 Wasserstein 距离。与 Word Mover’s Distance（WMD）相比，它在可解释性和可扩展性方面具有更好表现，在 k-NN 分类中具有可比的准确性。

ABSTRACT

The ability to measure similarity between documents enables intelligent summarization and analysis of large corpora. Past distances between documents suffer from either an inability to incorporate semantic similarities between words or from scalability issues. As an alternative, we introduce hierarchical optimal transport as a meta-distance between documents, where documents are modeled as distributions over topics, which themselves are modeled as distributions over words. We then solve an optimal transport problem on the smaller topic space to compute a similarity score. We give conditions on the topics under which this construction defines a distance, and we relate it to the word mover's distance. We evaluate our technique for k-NN classification and show better interpretability and scalability with comparable performance to current methods at a fraction of the cost.

研究动机与目标

激励高效、可解释的文档相似性，利用语义词信息和语料特定主题。
提出一种分层传输距离，通过在主题之间而非单词之间进行传输来降低复杂性。
将 HOTT 与现有度量（尤其是 WMD）联系起来，并分析使其成为度量的条件。
在 k-NN 分类和可视化任务中展示 HOTT 的性能和可扩展性。
探索对主题数量、嵌入质量和截断策略的鲁棒性。

提出的方法

将每个文档表示为来自 LDA 的主题分布。
将主题表示为对单词的分布，使用词嵌入通过对单词分布的 WMD 来定义主题之间的地面度量。
将 HOTT 定义为两个文档的主题混合分布之间的 1-Wasserstein 距离，主题层级的 Dirac 质量由文档主题比例加权。
预计算成对主题距离（主题之间的 WMD），并将主题截断为一小组词，以提高可解释性并降低方差。
展示与 WMD 的理论联系和界限，包括当主题数等于词汇表大小时 HOTT 如何退化为 WMD。
在 k-NN 分类、可视化（t-SNE）和引文网络中的链接预测上进行评估；并与 RWMD、WMD 及基线进行比较。

实验结果

研究问题

RQ1分层最优传输是否能为文档相似性提供基于度量且可扩展的替代方案，替代 WMD？
RQ2将语料特定主题和基于词嵌入的主题距离纳入如何影响可解释性和性能？
RQ3主题数量和主题截断对准确性与速度有何影响？
RQ4HOTT 是否对嵌入质量和不同数据集的文档长度具有鲁棒性？
RQ5HOTT 是否可以有效用于可视化和下游任务，如链接预测？

主要发现

由于在主题层面上的传输问题更小，HOTT 速度快于 WMD/RWMD，在多个数据集上达到可比甚至更好的 k-NN 准确率。
主题层面的可解释性得到提升，因为可以检查语义上有意义的主题之间的传输（例如作者最重要主题之间的传输）。
HOTT 对主题数量和词嵌入质量保持鲁棒，将主题截断为前若干词仍能保持性能且不牺牲速度。
在 Gutenberg 和较长的文档上，HOTT 在吞吐量和基于距离的分类方面优于竞争者；在较短文档上，性能接近 RWMD/WMD。
由于传输问题在较小的主题空间中解决，并预先计算主题距离，HOTT 对大语料库具有良好扩展性。
使用 HOTT 距离的可视化（t-SNE）相比 RWMD 显示出更清晰的标签分离。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。