Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Alignment of Embeddings with Wasserstein Procrustes

Édouard Grave, Armand Joulin|arXiv (Cornell University)|May 29, 2018
Advanced Neural Network Applications参考文献 54被引用数 38
ひとこと要約

本稿では、Wasserstein Procrustes定式化を用いて、直交変換行列と順列行列を同時に推定する確率的最適化フレームワークを用いて、高次元単語埋め込みの教師なしアライメントを実現する新規手法を提案する。この手法は、教師なし語翻訳タスクで最先端の性能を達成し、敵対的アプローチやICPに基づく手法を上回り、計算リソースを著しく削減し、初期化を1回行うだけでよい。

ABSTRACT

We consider the task of aligning two sets of points in high dimension, which has many applications in natural language processing and computer vision. As an example, it was recently shown that it is possible to infer a bilingual lexicon, without supervised data, by aligning word embeddings trained on monolingual data. These recent advances are based on adversarial training to learn the mapping between the two embeddings. In this paper, we propose to use an alternative formulation, based on the joint estimation of an orthogonal matrix and a permutation matrix. While this problem is not convex, we propose to initialize our optimization algorithm by using a convex relaxation, traditionally considered for the graph isomorphism problem. We propose a stochastic algorithm to minimize our cost function on large scale problems. Finally, we evaluate our method on the problem of unsupervised word translation, by aligning word embeddings trained on monolingual data. On this task, our method obtains state of the art results, while requiring less computational resources than competing approaches.

研究の動機と目的

  • 教師なし環境下で、低リソースまたはゼロショット翻訳設定においても、2つの高次元埋め込みをアライメントする課題に取り組むこと。
  • 埋め込みアライメントにおける直交変換行列と順列行列の共同推定のためのスケーラブルで安定した最適化手法を開発すること。
  • 敵対的学習や反復的最近接点(ICP)に依存する従来の教師なしアライメント手法は計算コストが高く、初期化に敏感であるため、それらを改善すること。
  • 非凸最適化における収束性と性能を向上させるために、凸緩和に基づく初期化を提供すること。

提案手法

  • ProcrustesとWasserstein距離にインspiredされた、直交変換と順列行列推定を組み合わせたコスト関数の最小化として、埋め込みアライメント問題を定式化する。
  • 変換されたソースとターゲット埋め込み間の二乗Wasserstein距離に基づく代理損失を最小化するための確率的アルゴリズムを用いる。
  • グラフマッチング緩和(Gold & Rangarajan, 1996)から導出された非凸問題の凸緩和を導入し、収束性の優れた初期化を実現する。
  • ミニバッチで効率的にWasserstein距離を近似するためにSinkhornアルゴリズムを採用し、大規模データセットへのスケーラビリティを実現する。
  • アライメント品質を向上させるためのリファインメントステップとしてCSLS(Canonical Signed Distance)基準を適用するが、リファインメントなしでも競争力のある性能を示す。
  • バッチサイズがWasserstein距離の近似精度と速度のトレードオフを制御するバッチ化された確率的最適化スキームを採用する。

実験結果

リサーチクエスチョン

  • RQ1直交変換行列と順列行列の共同最適化は、敵対的またはICPベースの手法よりも、教師なし埋め込みアライメントで優れた性能を達成できるか?
  • RQ2非凸アライメント問題の凸緩和は、収束性と最終的性能の向上に寄与する初期化戦略として効果的か?
  • RQ3本手法は、リファインメントや複数回のランダムリスタートを必要としない状況で、既存の教師なしアプローチをどの程度上回るか?
  • RQ4確率的最適化におけるバッチサイズは、計算効率とアライメント精度のトレードオフにどのように影響するか?
  • RQ5グラフマッチングと埋め込みアライメントの関係は何か?一方の知見は他方の問題解決に応用可能か?

主な発見

  • 提案手法は、教師なし二国語語彙インダクションにおいて最先端の性能を達成し、en-esおよびes-en翻訳ペアでそれぞれ80.2%および80.3%の1位精度を達成。敵対的およびICPベースのベースラインを上回る。
  • en-frペアではCSLSを用いて79.8%の1位精度に到達し、先行する教師なし手法と同等またはそれを上回る性能を示したが、はるかに高速で、1回の実行で十分である。
  • 6/8の言語ペアにおいて、リファインメントなしでGANベースのアプローチ(例:Conneau et al., 2017)を上回り、初期化品質の優位性を示した。
  • バッチサイズ1600で、最大のデータセットにおいて22分で収束し、強力なスケーラビリティを示した。バッチサイズが大きくなるほど、真のWasserstein距離の近似精度が向上し、性能も向上した。
  • 凸緩和による初期化は、一貫した収束とより優れた結果をもたらし、ICPのような数百回のリスタートを要する手法と比較して、よりロバストで効率的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。