Skip to main content
QUICK REVIEW

[论文解读] Offline bilingual word vectors, orthogonal transformations and the inverted softmax

Samuel Smith, David H. P. Turban|arXiv (Cornell University)|Feb 13, 2017
Natural Language Processing Techniques参考文献 17被引用 297
一句话总结

该论文证明离线双语词向量映射应为正交并可通过SVD获得,引入倒置 softmax 以提升翻译效果,并展示稳健结果,包括使用伪词典和句子级检索。

ABSTRACT

Usually bilingual word vectors are trained "online". Mikolov et al. showed they can also be found "offline", whereby two pre-trained embeddings are aligned with a linear transformation, using dictionaries compiled from expert knowledge. In this work, we prove that the linear transformation between two spaces should be orthogonal. This transformation can be obtained using the singular value decomposition. We introduce a novel "inverted softmax" for identifying translation pairs, with which we improve the precision @1 of Mikolov's original mapping from 34% to 43%, when translating a test set composed of both common and rare English words into Italian. Orthogonal transformations are more robust to noise, enabling us to learn the transformation without expert bilingual signal by constructing a "pseudo-dictionary" from the identical character strings which appear in both languages, achieving 40% precision on the same test set. Finally, we extend our method to retrieve the true translations of English sentences from a corpus of 200k Italian sentences with a precision @1 of 68%.

研究动机与目标

  • 证明双语词空间之间的线性映射应为正交且可通过SVD获得。
  • 引入倒置 softmax 以缓解双语翻译中的 hubness问题。
  • 通过使用来自相同字符串的伪词典以及利用对齐句子来展示鲁棒性。
  • 将该方法扩展到大型双语语料库中的句子级翻译与检索。

提出的方法

  • 将双语词空间对齐表述为通过从词典对学习一个正交变换 O 的问题:M = Y_D^T X_D = U Σ V^T,且 O = U V^T。
  • 定义相似性矩阵 S = Y O X^T,并优化映射以在词典对上最大化 y_i^T O x_i。
  • 引入倒置 softmax P_{j→i} = e^{β S_{ij}} / (α_j Σ_n e^{β S_{in}}) 通过对源词进行归一化来降低 hubness。
  • 通过对训练词典上的对数似然最大化来训练 β。
  • 在变换后的空间中通过最近邻进行翻译,并在必要时通过丢弃对应于较小奇异值的分量来实现降维。
  • 探索由跨语言的相同字符字符串创建的伪词典以及来自 Europarl 对齐句子作为弱双语信号。
  • 通过对词向量求和并归一化来构建简单的句子向量,然后在短语词典上通过 SVD 进行对齐,以实现词与句子的翻译。

实验结果

研究问题

  • RQ1在离线环境中,正交线性变换是否足以将单语词向量在不同语言间对齐?
  • RQ2倒置 softmax 是否降低 hubness 并提高双语映射的翻译准确性?
  • RQ3在使用弱信号或无双语信号(伪词典)或跨语言的相同字符串时,正交对齐的鲁棒性如何?
  • RQ4是否可以通过将相同的对齐应用于从词向量推导的简单句子向量来实现句子级翻译?

主要发现

  • 正交变换(通过单次 SVD 步骤)在离线设置中最优地对齐双语词空间。
  • 倒置 softmax 在翻译精度上显著优于原始映射(例如,使用一个 5k 词典时,英语→意大利语 @1 从 34% 提升到 43%)。
  • 使用相同字符字符串作为伪词典在没有专家双语信号的情况下达到 40% @1 的精度(英语→意大利语)。
  • 从英语到意大利语的句子级翻译,在从 200k 的意大利语候选中检索到真实翻译时,@1 精度约为 68%。
  • 使用 Europarl 对齐句子作为短语词典,该方法达到 42.8% @1 English→Italian 和 37.5% @1 Italian→English,与词典结果相当。
  • 该方法还能够从大型候选集合中检索英语句子的真实翻译,具有较高的准确性(在某些设置下可达到 68% @1)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。