Skip to main content
QUICK REVIEW

[论文解读] Context Mover's Distance & Barycenters: Optimal transport of contexts for building representations

Sidak Pal Singh, Andreas Hug|arXiv (Cornell University)|Aug 29, 2018
Topic Modeling参考文献 85被引用 8
一句话总结

本文提出上下文移动者距离(CMD),一种新颖的无监督表征框架,将实体建模为低维空间中其上下文共现的概率分布,利用最优传输理论实现语义相似性度量。通过计算这些分布估计之间的Wasserstein距离,并使用Wasserstein重心生成组合式表征,CMD在词语和句子相似性、蕴含关系及相似性任务上达到最先进性能——相较于Sent2vec和GenSen实现4.1%的相对性能提升。

ABSTRACT

We present a framework for building unsupervised representations of entities and their compositions, where each entity is viewed as a probability distribution rather than a vector embedding. In particular, this distribution is supported over the contexts which co-occur with the entity and are embedded in a suitable low-dimensional space. This enables us to consider representation learning from the perspective of Optimal Transport and take advantage of its tools such as Wasserstein distance and barycenters. We elaborate how the method can be applied for obtaining unsupervised representations of text and illustrate the performance (quantitatively as well as qualitatively) on tasks such as measuring sentence similarity, word entailment and similarity, where we empirically observe significant gains (e.g., 4.1% relative improvement over Sent2vec, GenSen). The key benefits of the proposed approach include: (a) capturing uncertainty and polysemy via modeling the entities as distributions, (b) utilizing the underlying geometry of the particular task (with the ground cost), (c) simultaneously providing interpretability with the notion of optimal transport between contexts and (d) easy applicability on top of existing point embedding methods. The code, as well as prebuilt histograms, are available under https://github.com/context-mover/.

研究动机与目标

  • 开发一种新型无监督表征学习框架,将实体建模为其上下文的分布,而非单一向量。
  • 利用最优传输理论——特别是Wasserstein距离和重心——捕捉文本中的语义不确定性、多义性和组合结构。
  • 通过上下文传输映射提供可解释的、几何感知的实体间距离度量。
  • 可直接应用于现有点嵌入模型(无需微调),提升下游NLP任务性能。

提出的方法

  • 将每个实体表示为其共现上下文的概率分布(直方图),其中上下文在低维空间中嵌入。
  • 将上下文移动者距离(CMD)计算为两个实体上下文分布之间的最优传输成本,使用基于上下文嵌入定义的基代价矩阵。
  • 利用Wasserstein重心计算实体组(如由词语构成的句子)的组合式表征,实现从词级到句级表征的迁移。
  • 采用预计算的实体上下文共现直方图,实现无需额外训练的高效推理。
  • 通过在上下文移动上定义任务特定的基度量,支持非对称代价,实现定制化的相似性度量。
  • 通过使用GloVe、Word2vec等模型的上下文嵌入作为传输的基空间,与现有点嵌入模型无缝集成。

实验结果

研究问题

  • RQ1将实体建模为其上下文的分布,能否提升NLP任务的无监督表征学习性能?
  • RQ2在捕捉语义相似性和多义性方面,上下文分布间的最优传输与点向量相似性相比表现如何?
  • RQ3Wasserstein重心能否有效从词级分布生成短语和句子的组合式表征?
  • RQ4CMD在词语和句子相似性及蕴含关系任务上是否优于最先进无监督方法?
  • RQ5上下文分布间的传输映射能否提供关于实体间语义关系的可解释洞察?

主要发现

  • CMD在词语和句子相似性基准上相较Sent2vec和GenSen实现4.1%的相对性能提升。
  • CMD在WBLESS超类检测任务上优于最先进完全无监督方法(Poincaré GloVe),在K=200时达到75.4%准确率。
  • CMD将HyperLex上的Spearman等级相关系数从0.316(Henderson)提升至0.338,表明与人工标注蕴含分数的对齐性更好。
  • 该方法显著提升HypeNet-Train数据集上的性能,使用CMD与Henderson嵌入在超类检测任务上达到75.2%准确率。
  • 定性分析表明,CMD在处理共超类对(如“banjo”与“flute”)和方向性关系(如“creature”与“gorilla”)方面表现更优,相比基线方法显著减少误报。
  • CMD的传输映射可提供可解释的洞察,揭示哪些上下文对距离计算贡献最大,从而解释两个实体为何被认为相似或不相似。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。