Skip to main content
QUICK REVIEW

[论文解读] Concatenated Power Mean Word Embeddings as Universal Cross-Lingual Sentence Representations

Andreas Rücklé, Steffen Eger|TUbilio (Technical University of Darmstadt)|Mar 4, 2018
Topic Modeling参考文献 21被引用 74
一句话总结

本文提出将不同词嵌入的拼接幂均值用于创建通用跨语言句子表征,能够在单语言结果上具有竞争力,并在跨语言迁移中表现强劲,且无需大量监督数据。

ABSTRACT

Average word embeddings are a common baseline for more sophisticated sentence embedding techniques. However, they typically fall short of the performances of more complex models such as InferSent. Here, we generalize the concept of average word embeddings to power mean word embeddings. We show that the concatenation of different types of power mean word embeddings considerably closes the gap to state-of-the-art methods monolingually and substantially outperforms these more complex techniques cross-lingually. In addition, our proposed method outperforms different recently proposed baselines such as SIF and Sent2Vec by a solid margin, thus constituting a much harder-to-beat monolingual baseline. Our data and code are publicly available.

研究动机与目标

  • 推动一种简单、通用的句子嵌入方法,能够跨语言迁移。
  • 通过使用幂均值扩展均值词嵌入,以捕捉不同的句子属性。
  • 通过拼接与归一化在单语言基线之上实现提升,并超越跨语言基线。
  • 探索组合多样词嵌入与幂均值对迁移任务的影响。

提出的方法

  • 通过从多个词嵌入空间计算的幂均值(p 值)来表示句子并将其拼接。
  • 用 H_p(W) 表示跨句子词向量的每维幂均值,然后在 K 个幂均值和 L 个嵌入空间上进行拼接。
  • 拼接多个嵌入空间(例如 GV、GN、MS、AR),对坐标进行 z 归一化以稳定混合坐标。
  • 在单语言迁移任务上使用带随机子样本验证的逻辑回归进行评估,并与 SentEval 进行比较。
  • 与强基线(SIF、Sent2vec、Siamese-CBOW、InferSent)进行比较,并使用对齐或翻译数据进行跨语言实验。

实验结果

研究问题

  • RQ1通过拼接多样的词嵌入并使用多组幂均值,是否能够在各任务中产出通用的句子表征?
  • RQ2基于幂均值的表示是否能缩小与最先进单语言方法的差距,并优于跨语言基线?
  • RQ3z 归一化与嵌入多样性对迁移性能有何影响?
  • RQ4在使用机器翻译数据与人工翻译数据时,跨语言结果如何比较?

主要发现

  • 拼接多种词嵌入和幂均值在单语言平均约提升约 2 个百分点,相对于单独的嵌入有显著提升。
  • z 归一化进一步提升结果,将单语言与 InferSent 的差距从 4.6pp 缩小到 0.6pp。
  • 拼接的幂均值方法在单语言方面与 InferSent 具有竞争力,且在往往超越 InferSent,同时维度更低(3600 vs 4096)。
  • 跨语言结果显示该方法在平均上在 9 项任务中有 8 项胜过所有 InferSent 改编,并在目标语言监督有限的情况下实现强迁移。
  • 跨语言机器翻译评估证实,机器翻译数据的排名与人工翻译数据高度一致(AM:Spearman ρ 96.5%,Pearson τ 98.4%;AC:83.7% 与 89.9%)。
  • 绝对值更大的 p 的幂均值会收敛到最小/最大值;带有额外幂均值的正 p 值在性能提升上呈现递减收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。