Skip to main content
QUICK REVIEW

[論文レビュー] Word Translation Without Parallel Data

Alexis Conneau, Guillaume Lample|arXiv (Cornell University)|Oct 11, 2017
Natural Language Processing Techniques参考文献 35被引用数 251
ひとこと要約

この論文は、敵対的訓練を通じてモノリンガル空間を整列させることでバイリンガル語彙埋め込みを学習する教師なし手法を提案し、ProcrustesとCSLSで洗練させ、英語–エスペラントのような遠距離・低リソースペアを含む複数の言語ペアで教師あり手法と同等またはそれを上回る成果を挙げている。

ABSTRACT

State-of-the-art methods for learning cross-lingual word embeddings have relied on bilingual dictionaries or parallel corpora. Recent studies showed that the need for parallel data supervision can be alleviated with character-level information. While these methods showed encouraging results, they are not on par with their supervised counterparts and are limited to pairs of languages sharing a common alphabet. In this work, we show that we can build a bilingual dictionary between two languages without using any parallel corpora, by aligning monolingual word embedding spaces in an unsupervised way. Without using any character information, our model even outperforms existing supervised methods on cross-lingual tasks for some language pairs. Our experiments demonstrate that our method works very well also for distant language pairs, like English-Russian or English-Chinese. We finally describe experiments on the English-Esperanto low-resource language pair, on which there only exists a limited amount of parallel data, to show the potential impact of our method in fully unsupervised machine translation. Our code, embeddings and dictionaries are publicly available.

研究の動機と目的

  • モノリンガルコーパスのみを用いて、並列データなしでバイリンガル辞書を誘導する方法を開発する。
  • 敵対的訓練を用いてモノリンガル埋め込み空間を整列させ、Procrustes解法で精練する。
  • ハブネスを緩和し、CSLS(クロスドメイン類似性局所スケーリング)を用いて翻訳検索を改善する。
  • 教師なしのモデル選択基準を提供し、リソース(辞書と embeddings)を公開する。
  • 遠距離言語や低リソース言語を含む複数の言語ペアで有効性を示す。

提案手法

  • 2つのモノリンガル埋め込み空間(各言語1つ)を用い、並列データなしで整列させるために敵対的訓練で線形写像Wを学習する。
  • 識別器は写像されたソース埋め込みとターゲット埋め込みを区別しようとする;写像Wは識別器を欺くよう努める(ドメイン対立的目的)。
  • 相互最近傍近傍から合成バイリンガル辞書を構築してProcrustes解(直交W)を適用して整列を改善する。
  • 相互最近傍を用いた反復的な辞書生成とCSLSベースのマッチングを行い、さらにWを精練する。
  • CSLS(クロスドメイン類似性局所スケーリング)を導入し、両方のドメインで近傍の平均類似度を用いて類似度を調整してハブネスを低減する。
  • モノリンガル埋め込みの性質を保つため、Wに直交性制約を適用する(明示的な更新ステップを介して)。
  • 教師なしのモデル選択は平均CSLS類似度に基づく翻訳のトップ語の平均値を stopping/hyperparameter choice として用いる基準を提案する。

実験結果

リサーチクエスチョン

  • RQ1クロスリンガル監視や並列データなしで高品質なバイリンガル辞書を誘導できるのか?
  • RQ2敵対的整列は、遠距離・非アルファベット共有言語を含む多様な言語ペアにおいて、監視付き手法とどのように比較されるか?
  • RQ3CSLS調整は二領域設定でハブネスを効果的に緩和し、検索精度を向上させるか?
  • RQ4教師なしのモデル選択はマッピング品質を信頼性高く示し、ハイパーパラメータの選択を導くか?
  • RQ5英語–エスペラントのような低リソース言語ペアや、文検索・クロスリンガル語彙類似度といった下流タスクへの適用性はどの程度か?

主な発見

  • 教師なしの敵対的整列の後にProcrustesによる洗練を行うと、いくつかの言語ペアで教師あり手法と比較して競争力の、またはそれを上回る語翻訳精度を達成する。
  • CSLSは標準的な最も近い隣接法より語翻訳検索精度を大幅に改善し、言語間で大きな利益をもたらす(例:いくつかのペアで最大約7.2パーセントポイント)。
  • 相互最近傍から作成した合成辞書を用いた洗練ステップは substantial gains をもたらし、時には教師ありベースラインを上回ることもある(例:English–ItalianおよびEnglish–SpanishのP@1)。
  • 平均CSLS類似度に基づく教師なしモデル選択基準は、実際の翻訳品質と相関し、停止/ハイパーパラメータ選択に利用できる。
  • 本手法は遠距離言語(例:English–Russian、English–Chinese)で良好に機能し、英語–エスペラントのような低リソースペアでも競争力のある結果を可能にし、単語単位翻訳で測定可能なBLEU利得を含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。